| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-13 | 데이터 최종 개방 | |
| 1.0 | 2023-05-26 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-03-19 | 산출물 최종 공개 |
폐암의 예후 예측 인공 지능 모델 개발에 활용할수 있는 1만명의 폐암 환자 융합 데이터 (CT, 디지털 병리 영상,임상 지표/조직병리/치료 데이터)
폐암의 예후 예측
| 데이터 영역 | 헬스케어 | 데이터 유형 | 이미지 |
|---|---|---|---|
| 데이터 형식 | DICOM (CT) +SVS 또는 TIF (병리이미지) + CSV (정형 데이터) | 데이터 출처 | 의료 데이터 |
| 라벨링 유형 | 세그멘테이션 | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | 예후 예측 인공 지능 | 데이터 구축년도/ 데이터 구축량 |
2022년/10,698,634 |
1. 원천 데이터 규모
| 과제번호 | 과제명 | 주요 내용 | 환자 수 | 데이터 종류 | 데이터 수 | 데이터 용량 | 데이터 형식 |
|---|---|---|---|---|---|---|---|
| 1-025-069 | 폐암 예후 예측 융합 데이터 | 조직검사 또는 수술로 폐암으로 진단받은 환자의 데이터셋 | 10,000명 | CT 영상 | 10,940,086장 | 9,998MB | dcm |
| 병리조직 이미지 | 10,121장 | svs | |||||
| EMR 임상 정형데이터 | 10,119건 | 1,468KB | csv |
2. 라벨링 데이터 규모
| 과제번호 | 과제명 | 주요 내용 | 환자 수 | 데이터 종류 | 데이터 수 | 데이터 용량 | 데이터 형식 |
|---|---|---|---|---|---|---|---|
| 1-025-069 | 폐암 예후 예측 융합 데이터 | 폐암 조직검사 라벨링 데이터셋 | 10,000명 | 병리조직 이미지 | 10,121 건 | 259 MB | png |
| Json 파일 | 10,121 건 | json |
3. 데이터 분포
| 특성 | 항목 | 분포 구분 | 구성비 |
|---|---|---|---|
| 다양성(통계) | 남녀 성비 분포 | 남성 | 68% |
| 여성 | 32% | ||
| 연령대 분포 | 40세 미만 | 1% | |
| 40세 이상 ~ 50세 미만 | 5% | ||
| 50세 이상 ~ 60세 미만 | 17% | ||
| 60세 이상 ~ 70세 미만 | 34% | ||
| 70세 이상 ~ 80세 미만 | 33% | ||
| 80세 이상 | 9% | ||
| 흡연 여부 분포 | 흡연 | 48% | |
| 비흡연 | 52% | ||
| 다양성(요건) | 폐암 클래스 분포 | 비소세포암 | 91% |
| 소세포암 | 9% |
1. 학습 모델 개발
1) 폐조직 이미지 분할
- (개발 목표) 폐조직 병리 슬라이드 이미지를 기반으로 암 조직과 정상 조직을 분할
- (개발 내용) 구축되는 폐조직 병리 슬라이드 이미지의 학습데이터를 활용 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력으로 하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출
2) 폐암 환자 생존 분석
- (개발 목표) 폐암 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
- (개발 내용) 구축되는 정형 데이터 (임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습
2. 데이터 활용
| 데이터 명 | 폐암 예후 예측 융합 데이터 |
|---|---|
| 학습 모델 | ① 폐조직 이미지 분할 |
| ② 폐암 환자 생존 분석 | |
| 모델 | ① 폐조직 이미지 분할 : EfficientNet + U-Net |
| ② 폐암 환자 생존 분석 : DeepSurv | |
| 성능 지표 | ① 폐조직 이미지 분할 : DSC 0.7 이상 |
| ② 폐암 환자 생존 분석 : C-index 0.65 이상 | |
| 개발 내용 | ① 폐조직 이미지 분할 |
| 구축되는 폐조직 병리 슬라이드 이미지를 활용하여 암/정상 조직에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발 | |
| ② 폐암 환자 생존 분석 | |
| 구축되는 임상 및 병리 정보를 활용하여 폐암 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발 | |
| 응용서비스 (예시 및 유의사항) |
폐조직 이미지 분할 모델을 활용하여 폐암 환자의 조직을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행 |
1) 폐암 공통 임상 지표 데이터
| No | 속성명 | 항목 설명 | Data Type | 규격 및 허용범위 |
|---|---|---|---|---|
| 1 | patientid | 대상자ID | VarChar(7) | |
| 2 | sex | 성별 | Char(1) | M:남성, F:여성 |
| 3 | birth date | 생년월 | Date | YYYYMM |
| 4 | height | 신장 | Integer | 120~220 (Cm) |
| 5 | weight | 체중 | Integer | 30~220 (Kg) |
| 6 | Diagnosis | 진단명 | Varchar(200) | |
| 7 | bp | 고혈압여부 | Char(1) | Y/N |
| 8 | bs | 당뇨여부 | Char(1) | Y/N |
| 9 | sm | 흡연여부 | Char(1) | Y/N |
| 10 | familyhistory | 가족력 | Char(1) | Y/N |
| 11 | locationcancer | 원발암의위치 | Char(1) | 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타 |
| 12 | cancerimaging | 암영상 병기 | Varchar(10) | |
| 13 | cancerimagingT | 암영상 T병기 | Varchar(10) | |
| 14 | cancerimagingN | 암영상 N병기 | Varchar(10) | |
| 15 | cancerimagingM | 암영상 M병기 | Varchar(10) | |
| 16 | initialdate | 치료 시작일 | Date | yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택 |
| 17 | treatedate | 치료 종료일 | Date | yyyymmdd |
| 18 | relapse | 재발 여부 | Char(1) | 1: 재발하지 않음, 2: 국소재발, 3: 원격재발 |
| 19 | relapsedate | 재발 진단일 | Date | yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력 |
| 20 | dead | 사망 여부 | Char(1) | 0: 없다, 1: 있다 (모르는 경우는 0으로 표기) |
| 21 | deathdate | 사망일 | Date | yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력 |
| 22 | deathsign | 사망 사인 | Char(1) | 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망 |
| 23 | lastdate | 마지막 병원 방문일 | Date | yyyymmdd |
2) 폐암 임상 데이터
| 구분 | No | 속성명 | 항목 설명 | Data Type | 규격 및 허용범위 |
|---|---|---|---|---|---|
| 조직병리 데이터 |
1 | patientid | 대상자ID | VarChar(7) | |
| 2 | classification cancer | 폐암의 조직학적분류 | Char(1) | 1: 선암, 2: 편평상피암, 3: 대세포암, 4: 소세포암, 5: 기타 | |
| 3 | surgical cancer | 폐암의 수술적 병기 | Varchar(10) | ||
| 4 | surgical cancerT | 암의 수술적 T병기 | Varchar(10) | ||
| 5 | surgical cancerN | 암의 수술적 N병기 | Varchar(10) | ||
| 6 | surgical cancerM | 암의 수술적 M병기 | Varchar(10) | ||
| 7 | boundarysurgical | 수술부위의 경계 | Char(1) | 1. 완전절제 /2. 비완전절제 | |
| 8 | Involvementrenal | 신결절 침범 유무 | Varchar(1) | ||
| 9 | lymphrenal | 림프절 침윤 범위 | Varchar(1) | ||
| 치료 데이터 |
10 | surgicalmethod | 수술방법 | Char(1) | 1. Lobectomy /2. Pneumonectomy /3. Wedgeresection /4. Segmentectomy /5. 기타 |
| 11 | antidrug | 항암치료 약제 | Varchar(100) | ||
| 12 | totaldose | 방사선 치료 총선량 | Integer | ||
| 13 | radiationcnt | 방사선 치료 횟수 | Integer | ||
| 14 | radiationperdose | 방사선 회당 치료 선량 | Integer | ||
| 15 | treatmethod | 치료 방법 | Char(1) | 1. 수술만 진행 /2. 수술후 항암 /3. 수술후 항암 방사선 /4. 수술후 방사선 /5. 항암 방사선 (수술 x) /6. 방사선 (수술x) /7. 항암 /8. 기타 | |
| 16 | treatech | 치료 기법 | Char(1) | 1. conformal / 2. IMRT / 3. SBRT / 4.기타 | |
| 유전체 검사정보 |
17 | egfr | EGFR | Char(1) | |
| 18 | ros1 | ROS-1 | Char(1) | ||
| 19 | alk | ALK | Char(1) |
|
3) JSON 형식
{
"annotations": [
{
"info": {
"name": "filename.svs",
"stain_type": "H&E",
"contributer": "AJMC",
"description": "소세포암",
"ROI": {
"xmin": 37006,
"ymin": 9791,
"xmax": 39526,
"ymax": 11778
}
},
"annotations": [
{
"id": 1,
"class": "Tumor",
"type": "segmentation",
"coordinates": [
[
39001,
9791
],
[
38995,
9794
],
[
38989,
9797
],
[
38980,
9797
], ...
[
39076,
9797
],
[
39073,
9794
],
[
39037,
9794
],
[
39034,
9791
],
[
39001,
9791
]
]
}
]
}
| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 허재성 | 031-219-5337 | nahero@ajou.ac.kr | 사업 총괄 |
| 기관명 | 담당업무 |
|---|---|
| 부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, | 데이터 수집 |
| ㈜피트케어, ㈜코스모티어 | 데이터 정제 |
| ㈜닥터웍스 | 데이터 가공 |
| ㈜마인즈앤컴퍼니 | AI 모델 개발, 데이터 활용 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 허재성 | 031-219-5337 | nahero@ajou.ac.kr |