| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-11-30 | 데이터 최종 개방 | |
| 1.0 | 2023-05-26 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-03-19 | 산출물 최종 공개 |
악성 림프종의 예후 예측 인공 지능 모델 개발에 활용할수 있는 2천명의 악성 림프종 환자 융합 데이터 (CT,PET,임상 지표/조직병리/치료 데이터)
악성 림프종의 예후 예측
| 데이터 영역 | 헬스케어 | 데이터 유형 | 이미지 |
|---|---|---|---|
| 데이터 형식 | DICOM (CT/PET) + CSV (정형 데이터) | 데이터 출처 | 의료 데이터 |
| 라벨링 유형 | 세그멘테이션 | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | 예후 예측 인공 지능 | 데이터 구축년도/ 데이터 구축량 |
2022년/2,680,313 |
1. 원천 데이터 규모
| 과제번호 | 과제명 | 주요 내용 | 환자 수 | 데이터 종류 | 데이터 수 | 데이터 용량 | 데이터 형식 |
|---|---|---|---|---|---|---|---|
| 1-025-070 | 악성 림프종 예후 예측 융합 데이터 | 조직검사 또는 수술로 악성 림프종으로 진단받은 환자의 데이터셋 | 2,000명 | 영상 데이터 | 2,720,607장 | 922.6 GB | dcm |
| Key Image 데이터 | 7,574장 | dcm | |||||
| EMR 임상 정형데이터 | 2,000 건 | 503.3 KB | csv |
2. 라벨링 데이터 규모
| 과제번호 | 과제명 | 주요 내용 | 환자 수 | 데이터 종류 | 데이터 수 | 데이터 용량 | 데이터 형식 |
|---|---|---|---|---|---|---|---|
| 1-025-070 | 악성 림프종 예후 예측 융합 데이터 | 악성 림프종 CT 영상 및 PET 영상 라벨링 데이터셋 | 2,000명 | png 파일 | 4,032 건 | 17.4 MB | png |
| Json 파일 | 4,032 건 | json |
3. 데이터 분포
| 특성 | 항목 | 분포 구분 | 구성비 |
|---|---|---|---|
| 다양성(통계) | 남녀 성비 분포 | 남성 | 41.65% |
| 여성 | 58.35% | ||
| 연령대 분포 | 30세 미만 | 5.75% | |
| 30세 이상 ~ 50세 미만 | 19.65% | ||
| 50세 이상 ~ 60세 미만 | 22.40% | ||
| 60세 이상 ~ 70세 미만 | 24.55% | ||
| 70세 이상 | 27.65% | ||
| 다양성(요건) | 악성 림프종 클래스 분포 | 호지킨 림프종 | 7.99% |
| 비호지킨 림프종 | 92.01% |
1. 학습 모델 개발
1) 악성 림프종 이미지 분할
- (개발 목표) 악성 림프종 CT 및 PET 이미지를 기반으로 암 병변을 분할
- (개발 내용) 구축되는 CT 및 PET 학습데이터를 활용하여 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출
2) 악성 림프종 환자 생존 분석
- (개발 목표) 악성 림프종 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
- (개발 내용) 구축되는 정형 데이터(임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습
2. 데이터 활용
| 데이터 명 | 악성 림프종 예후 예측 융합 데이터 |
|---|---|
| 학습 모델 | ① 악성 림프종 이미지 분할 |
| ② 악성 림프종 환자 생존 분석 | |
| 모델 | ① 악성 림프종 이미지 분할 : EfficientNet + U-Net |
| ② 악성 림프종 환자 생존 분석 : DeepSurv | |
| 성능 지표 | ① 악성 림프종 이미지 분할 : DSC 0.7 이상 |
| ② 악성 림프종 환자 생존 분석 : C-index 0.65 이상 | |
| 개발 내용 | ① 악성 림프종 이미지 분할 |
| 구축되는 악성 림프종 CT 및 PET 이미지를 활용하여 암 병변에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발 | |
| ② 악성 림프종 환자 생존 분석 | |
| 구축되는 임상 및 병리 정보를 활용하여 악성 림프종 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발 | |
| 응용서비스 (예시 및 유의사항) |
악성 림프종 이미지 분할 모델을 활용하여 악성 림프종 환자의 암 병변을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행 |
1) 악성 림프종 공통 임상 지표 데이터
| No | 속성명 | 항목 설명 | Data Type | 규격 및 허용범위 |
|---|---|---|---|---|
| 1 | patientid | 대상자ID | VarChar(7) | |
| 2 | sex | 성별 | Char(1) | M:남성, F:여성 |
| 3 | birth date | 생년월 | Date | YYYYMM |
| 4 | height | 신장 | Integer | 120~220 (Cm) |
| 5 | weight | 체중 | Integer | 30~220 (Kg) |
| 6 | Diagnosis | 진단명 | Varchar(200) | |
| 7 | bp | 고혈압여부 | Char(1) | Y/N |
| 8 | bs | 당뇨여부 | Char(1) | Y/N |
| 9 | sm | 흡연여부 | Char(1) | Y/N |
| 10 | familyhistory | 가족력 | Char(1) | Y/N |
| 11 | locationcancer | 원발암의위치 | Char(1) | 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타 |
| 12 | cancerimaging | 암영상 병기 | Varchar(10) | |
| 13 | cancerimagingT | 암영상 T병기 | Varchar(10) | |
| 14 | cancerimagingN | 암영상 N병기 | Varchar(10) | |
| 15 | cancerimagingM | 암영상 M병기 | Varchar(10) | |
| 16 | initialdate | 치료 시작일 | Date | yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택 |
| 17 | treatedate | 치료 종료일 | Date | yyyymmdd |
| 18 | relapse | 재발 여부 | Char(1) | 1: 재발하지 않음, 2: 국소재발, 3: 원격재발 |
| 19 | relapsedate | 재발 진단일 | Date | yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력 |
| 20 | dead | 사망 여부 | Char(1) | 0: 없다, 1: 있다 (모르는 경우는 0으로 표기) |
| 21 | deathdate | 사망일 | Date | yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력 |
| 22 | deathsign | 사망 사인 | Char(1) | 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망 |
| 23 | lastdate | 마지막 병원 방문일 | Date | yyyymmdd |
2) 악성 임상 데이터
| 구분 | No | 속성명 | 항목 설명 | 규격 및 허용범위 |
|---|---|---|---|---|
| 조직병리 | 1 | patientid | 대상자ID | |
| 데이터 | 2 | classification cancer | 림프종의 조직학적 분류 | 1: 호지킨 림프종, 2: 비호지킨 림프종, 3: 기타 |
| 치료 데이터 | 3 | CD45 | CD45 | |
| 4 | CD20 | CD20 | ||
| 5 | CD5 | CD5 | ||
| 6 | CD10 | CD10 | ||
| 7 | CD30 | CD30 | ||
| 8 | CD8 | CD8 | ||
| 9 | CD23 | CD23 | ||
| 10 | CD56 | CD56 | ||
| 11 | BCL2 | BCL-2 | ||
| 12 | BCL6 | BCL-6 | ||
| 13 | Cyclin_D1 | Cyclin_D1 | ||
| 14 | ALK | ALK | ||
| 15 | Cmyc | C-Myc | ||
| 16 | Ki-67 | Ki-67 (%) | ||
| 17 | WBC | WBC | ||
| 18 | ANC | ANC | ||
| 19 | ALC | ALC | ||
| 20 | PLT | PLT | ||
| 21 | Hb | Hb | ||
| 22 | NLR | NLR | ||
| 23 | PLR | PLR | ||
| 24 | LDH | LDH(특수) | ||
| 25 | PEP | PEP(특수) | ||
| PET검사 데이터 | 26 | PRE_AD_MAX | SUVmax | |
| 27 | PRE_BD_MAX | SUVmax | ||
| 28 | PRE_TN_MAX | SUVmax | ||
| 29 | PRE_SP_MAX | SUVmax | ||
| 30 | PRE_BM_MAX | SUVmax | ||
| 31 | PRE_LV_MAX | SUVmax | ||
| 32 | PRE_ETC_MAX | SUVmax | ||
| 33 | PRE_AD_DEU | Deuvile score | 1/2/3/4/5/x | |
| 34 | PRE_BD_DEU | Deuvile score | 1/2/3/4/5/x | |
| 35 | PRE_TN_DEU | Deuvile score | 1/2/3/4/5/x | |
| 36 | PRE_SP_DEU | Deuvile score | 1/2/3/4/5/x | |
| 37 | PRE_BM_DEU | Deuvile score | 1/2/3/4/5/x | |
| 38 | PRE_LV_DEU | Deuvile score | 1/2/3/4/5/x | |
| 39 | PRE_ETC_DEU | Deuvile score | 1/2/3/4/5/x | |
| 40 | POST_AD_MAX | SUVmax | ||
| 41 | POST_BD_MAX | SUVmax | ||
| 42 | POST_TN_MAX | SUVmax | ||
| 43 | POST_SP_MAX | SUVmax | ||
| 44 | POST_BM_MAX | SUVmax | ||
| 45 | POST_LV_MAX | SUVmax | ||
| 46 | POST_ETC_MAX | SUVmax | ||
| 47 | POST_AD_DEU | Deuvile score | 1/2/3/4/5/x | |
| 48 | POST_BD_DEU | Deuvile score | 1/2/3/4/5/x | |
| 49 | POST_TN_DEU | Deuvile score | 1/2/3/4/5/x | |
| 50 | POST_SP_DEU | Deuvile score | 1/2/3/4/5/x | |
| 51 | POST_BM_DEU | Deuvile score | 1/2/3/4/5/x | |
| 52 | POST_LV_DEU | Deuvile score | 1/2/3/4/5/x | |
| 53 | POST_ETC_DEU | Deuvile score | 1/2/3/4/5/x |
3)어노테이션 항목
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 비고 | |
|---|---|---|---|---|---|---|
| 1 | info | Object | 데이터셋정보 | |||
| 1-1 | info.name | String | Y | 데이터셋명 | ||
| 1-2 | info.contributer | String | 데이터제공처 | |||
| 1-3 | info.description | String | 데이터셋 설명 | |||
| 2 | annotations | Object | 라벨링정보 | |||
| 2-1 | annotations[].id | String | Y | 라벨링식별자 | ||
| 2-2 | annotations[].class | String | Y | 카테고리명 | lymphoma, 림프종 | |
| 2-3 | annotations[].type | String | Y | 라벨링식별자 | segmentation | |
| 2-4 | annotations[].coordinates | Number | Y | Segmentation 좌표값 |
|
|
4)JSON 형식
{
"info": [
{
"name": "LYMP_AJMC_B10000_PAIREDCT_0_0001.dcm",
"contributer": "AJMC",
"description": "Annotated Non Contrast-enhanced Computed Tomography Image of Lymphoma"
}
],
"annotations": [
{
"id": "b753cc7f-92a7-4efc-8976-7d0f6a9f4c02",
"class": "lymphoma",
"type": "segmentation",
"coordinates": [
[
[
265.3105393020798,
325.50837151921036
],
[
262.84314416637307,
330.09067677123716
],
[
263.5481142051464,
334.3204970038773
],
[
266.36799436023983,
337.84534719774405
],
[
269.8928445541066,
340.66522735283746
],
[
274.4751498061334,
341.7226824109975
],
[
276.59005992245346,
341.7226824109975
],
[
275.18011984490676,
336.43540712019734
],
[
276.59005992245346,
332.5580719069439
],
[
276.59005992245346,
329.3857067324638
],
[
274.4751498061334,
326.5658265773704
],
[
270.59781459287996,
325.50837151921036
],
[
268.1304194571732,
325.50837151921036
]
]
]
}
]
}
| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 허재성 | 031-219-5337 | nahero@ajou.ac.kr | 사업 총괄 |
| 기관명 | 담당업무 |
|---|---|
| 부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, | 데이터 수집 |
| ㈜피트케어, ㈜코스모티어 | 데이터 정제 |
| ㈜닥터웍스 | 데이터 가공 |
| ㈜마인즈앤컴퍼니 | AI 모델 개발, 데이터 활용 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 허재성 | 031-219-5337 | nahero@ajou.ac.kr |