공공 의료데이터 상세

썸네일

폐암 예후 예측 융합 데이터

##헬스케어 건강서비스##헬스케어 의료
폐암의 예후 예측 인공 지능 모델 개발에 활용할수 있는 1만명의 폐암 환자 융합 데이터 (CT, 디지털 병리 영상,임상 지표/조직병리/치료 데이터)
분야
헬스케어
유형
이미지
생성 방식
안심존(온라인)
  • 구축년도 : 2022
  • 버전 : 1.1
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.1 2023-12-13 데이터 최종 개방
1.0 2023-05-26 데이터 개방 Beta Version

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2024-03-19 산출물 최종 공개

소개

폐암의 예후 예측 인공 지능 모델 개발에 활용할수 있는 1만명의 폐암 환자 융합 데이터 (CT, 디지털 병리 영상,임상 지표/조직병리/치료 데이터)

구축목적

폐암의 예후 예측

1. 원천 데이터 규모

1. 원천 데이터 규모
과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식
1-025-069 폐암 예후 예측 융합 데이터 조직검사 또는 수술로 폐암으로 진단받은 환자의 데이터셋 10,000명 CT 영상 10,940,086장 9,998MB dcm
병리조직 이미지 10,121장 svs
EMR 임상 정형데이터 10,119건 1,468KB csv

 

2. 라벨링 데이터 규모

2. 라벨링 데이터 규모
과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식
1-025-069 폐암 예후 예측 융합 데이터 폐암 조직검사 라벨링 데이터셋 10,000명 병리조직 이미지 10,121 건 259 MB png
Json 파일 10,121 건 json

 

3. 데이터 분포

3. 데이터 분포
특성 항목 분포 구분 구성비
다양성(통계) 남녀 성비 분포 남성 68%
여성 32%
연령대 분포 40세 미만 1%
40세 이상 ~ 50세 미만 5%
50세 이상 ~ 60세 미만 17%
60세 이상 ~ 70세 미만 34%
70세 이상 ~ 80세 미만 33%
80세 이상 9%
흡연 여부 분포 흡연 48%
비흡연 52%
다양성(요건) 폐암 클래스 분포 비소세포암 91%
소세포암 9%

1. 학습 모델 개발
 1) 폐조직 이미지 분할
   - (개발 목표) 폐조직 병리 슬라이드 이미지를 기반으로 암 조직과 정상 조직을 분할 
   - (개발 내용) 구축되는 폐조직 병리 슬라이드 이미지의 학습데이터를 활용 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력으로 하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출

 

 2) 폐암 환자 생존 분석
   - (개발 목표) 폐암 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
   - (개발 내용) 구축되는 정형 데이터 (임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습
 

2. 데이터 활용

데이터 명  폐암 예후 예측 융합 데이터
학습 모델  ① 폐조직 이미지 분할
② 폐암 환자 생존 분석
모델 ① 폐조직 이미지 분할 : EfficientNet + U-Net
② 폐암 환자 생존 분석 : DeepSurv
성능 지표 ① 폐조직 이미지 분할 : DSC 0.7 이상
② 폐암 환자 생존 분석 : C-index 0.65 이상
개발 내용 ① 폐조직 이미지 분할
구축되는 폐조직 병리 슬라이드 이미지를 활용하여 암/정상 조직에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발
② 폐암 환자 생존 분석 
구축되는 임상 및 병리 정보를 활용하여 폐암 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발
응용서비스
(예시 및 유의사항)
폐조직 이미지 분할 모델을 활용하여 폐암 환자의 조직을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행

1) 폐암 공통 임상 지표 데이터

1) 폐암 공통 임상 지표 데이터
No 속성명 항목 설명 Data Type 규격 및 허용범위
1 patientid 대상자ID VarChar(7)  
2 sex 성별 Char(1) M:남성, F:여성
3 birth date 생년월 Date YYYYMM
4 height 신장 Integer 120~220 (Cm)
5 weight 체중 Integer 30~220 (Kg)
6 Diagnosis 진단명 Varchar(200)  
7 bp 고혈압여부 Char(1) Y/N
8 bs 당뇨여부 Char(1) Y/N
9 sm 흡연여부 Char(1) Y/N
10 familyhistory 가족력 Char(1) Y/N
11 locationcancer 원발암의위치 Char(1) 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타
12 cancerimaging 암영상 병기 Varchar(10)  
13 cancerimagingT 암영상 T병기 Varchar(10)  
14 cancerimagingN 암영상 N병기 Varchar(10)  
15 cancerimagingM 암영상 M병기 Varchar(10)  
16 initialdate 치료 시작일 Date yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택
17 treatedate 치료 종료일 Date yyyymmdd
18 relapse 재발 여부 Char(1) 1: 재발하지 않음, 2: 국소재발, 3: 원격재발
19 relapsedate 재발 진단일 Date yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력
20 dead 사망 여부 Char(1) 0: 없다, 1: 있다 (모르는 경우는 0으로 표기)
21 deathdate 사망일 Date yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력
22 deathsign 사망 사인 Char(1) 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망
23 lastdate 마지막 병원 방문일 Date yyyymmdd

 

2) 폐암 임상 데이터

2) 폐암 임상 데이터
구분 No 속성명 항목 설명 Data Type 규격 및 허용범위
조직병리
데이터
1 patientid 대상자ID VarChar(7)  
2 classification cancer 폐암의 조직학적분류 Char(1) 1: 선암, 2: 편평상피암, 3: 대세포암, 4: 소세포암, 5: 기타
3 surgical cancer 폐암의 수술적 병기 Varchar(10)  
4 surgical cancerT 암의 수술적 T병기 Varchar(10)  
5 surgical cancerN 암의 수술적 N병기 Varchar(10)  
6 surgical cancerM 암의 수술적 M병기 Varchar(10)  
7 boundarysurgical 수술부위의 경계 Char(1) 1. 완전절제 /2. 비완전절제
8 Involvementrenal 신결절 침범 유무 Varchar(1)  
9 lymphrenal 림프절 침윤 범위 Varchar(1)  
치료
데이터
10 surgicalmethod 수술방법 Char(1) 1. Lobectomy /2. Pneumonectomy /3. Wedgeresection /4. Segmentectomy /5. 기타
11 antidrug 항암치료 약제 Varchar(100)  
12 totaldose 방사선 치료 총선량 Integer  
13 radiationcnt 방사선 치료 횟수 Integer  
14 radiationperdose 방사선 회당 치료 선량 Integer  
15 treatmethod 치료 방법 Char(1) 1. 수술만 진행 /2. 수술후 항암 /3. 수술후 항암 방사선 /4. 수술후 방사선 /5. 항암 방사선 (수술 x) /6. 방사선 (수술x) /7. 항암 /8. 기타
16 treatech 치료 기법 Char(1) 1. conformal / 2. IMRT / 3. SBRT / 4.기타
유전체
검사정보
17 egfr EGFR Char(1)  
18 ros1 ROS-1 Char(1)  
19 alk ALK Char(1)
 

 

3) JSON 형식

 

{
  "annotations": [
    {
      "info": {
        "name": "filename.svs",
        "stain_type": "H&E",
        "contributer": "AJMC",
        "description": "소세포암",
        "ROI": {
          "xmin": 37006,
          "ymin": 9791,
          "xmax": 39526,
          "ymax": 11778
        }
      },
      "annotations": [
        {
          "id": 1,
          "class": "Tumor",
          "type": "segmentation",
          "coordinates": [
            [
              39001,
              9791
            ],
            [
              38995,
              9794
            ],
            [
              38989,
              9797
            ],
            [
              38980,
              9797
            ], ...
            [
              39076,
              9797
            ],
            [
              39073,
              9794
            ],
            [
              39037,
              9794
            ],
            [
              39034,
              9791
            ],
            [
              39001,
              9791
            ]
          ]
        }
      ]
    }

 

데이터셋 구축 담당자

수행기관(주관) : 아주대학교 산학협력단
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
허재성 031-219-5337 nahero@ajou.ac.kr 사업 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, 데이터 수집
㈜피트케어, ㈜코스모티어 데이터 정제
㈜닥터웍스 데이터 가공
㈜마인즈앤컴퍼니 AI 모델 개발, 데이터 활용
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
허재성 031-219-5337 nahero@ajou.ac.kr