공공 의료데이터 상세

썸네일

악성 림프종 예후 예측 융합 데이터

##헬스케어 건강서비스##헬스케어 의료
악성 림프종의 예후 예측 인공 지능 모델 개발에 활용할수 있는 2천명의 악성 림프종 환자 융합 데이터 (CT,PET,임상 지표/조직병리/치료 데이터)
분야
헬스케어
유형
이미지
생성 방식
안심존(온라인)
  • 구축년도 : 2022
  • 버전 : 1.1
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.1 2023-11-30 데이터 최종 개방
1.0 2023-05-26 데이터 개방 Beta Version

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2024-03-19 산출물 최종 공개

소개

악성 림프종의 예후 예측 인공 지능 모델 개발에 활용할수 있는 2천명의 악성 림프종 환자 융합 데이터 (CT,PET,임상 지표/조직병리/치료 데이터)

구축목적

악성 림프종의 예후 예측

1. 원천 데이터 규모

1. 원천 데이터 규모
과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식
1-025-070 악성 림프종 예후 예측 융합 데이터 조직검사 또는 수술로 악성 림프종으로 진단받은 환자의 데이터셋 2,000명 영상 데이터 2,720,607장 922.6 GB dcm
Key Image 데이터 7,574장 dcm
EMR 임상 정형데이터 2,000 건 503.3 KB csv

 

2. 라벨링 데이터 규모

2. 라벨링 데이터 규모
과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식
1-025-070 악성 림프종 예후 예측 융합 데이터 악성 림프종 CT 영상 및 PET 영상 라벨링 데이터셋 2,000명 png 파일 4,032 건 17.4 MB png
Json 파일 4,032 건 json

 

3. 데이터 분포

3. 데이터 분포
특성 항목 분포 구분 구성비
다양성(통계) 남녀 성비 분포 남성 41.65%
여성 58.35%
연령대 분포 30세 미만 5.75%
30세 이상 ~ 50세 미만 19.65%
50세 이상 ~ 60세 미만 22.40%
60세 이상 ~ 70세 미만 24.55%
70세 이상 27.65%
다양성(요건) 악성 림프종 클래스 분포 호지킨 림프종 7.99%
비호지킨 림프종 92.01%

 

1. 학습 모델 개발
 1) 악성 림프종 이미지 분할
   - (개발 목표) 악성 림프종 CT 및 PET 이미지를 기반으로 암 병변을 분할
   - (개발 내용) 구축되는 CT 및 PET 학습데이터를 활용하여 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출

 

 2) 악성 림프종 환자 생존 분석
   - (개발 목표) 악성 림프종 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
   - (개발 내용) 구축되는 정형 데이터(임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습

 

2. 데이터 활용

데이터 명  악성 림프종 예후 예측 융합 데이터
학습 모델  ① 악성 림프종 이미지 분할
② 악성 림프종 환자 생존 분석
모델 ① 악성 림프종 이미지 분할 : EfficientNet + U-Net
② 악성 림프종 환자 생존 분석 : DeepSurv
성능 지표 ① 악성 림프종 이미지 분할 : DSC 0.7 이상
② 악성 림프종 환자 생존 분석 : C-index 0.65 이상
개발 내용 ① 악성 림프종 이미지 분할
구축되는 악성 림프종 CT 및 PET 이미지를 활용하여 암 병변에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발
② 악성 림프종 환자 생존 분석 
구축되는 임상 및 병리 정보를 활용하여 악성 림프종 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발
응용서비스
(예시 및 유의사항)
악성 림프종 이미지 분할 모델을 활용하여 악성 림프종 환자의 암 병변을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행

1) 악성 림프종 공통 임상 지표 데이터

1) 악성 림프종 공통 임상 지표 데이터
No 속성명 항목 설명 Data Type 규격 및 허용범위
1 patientid 대상자ID VarChar(7)  
2 sex 성별 Char(1) M:남성, F:여성
3 birth date 생년월 Date YYYYMM
4 height 신장 Integer 120~220 (Cm)
5 weight 체중 Integer 30~220 (Kg)
6 Diagnosis 진단명 Varchar(200)  
7 bp 고혈압여부 Char(1) Y/N
8 bs 당뇨여부 Char(1) Y/N
9 sm 흡연여부 Char(1) Y/N
10 familyhistory 가족력 Char(1) Y/N
11 locationcancer 원발암의위치 Char(1) 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타
12 cancerimaging 암영상 병기 Varchar(10)  
13 cancerimagingT 암영상 T병기 Varchar(10)  
14 cancerimagingN 암영상 N병기 Varchar(10)  
15 cancerimagingM 암영상 M병기 Varchar(10)  
16 initialdate 치료 시작일 Date yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택
17 treatedate 치료 종료일 Date yyyymmdd
18 relapse 재발 여부 Char(1) 1: 재발하지 않음, 2: 국소재발, 3: 원격재발
19 relapsedate 재발 진단일 Date yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력
20 dead 사망 여부 Char(1) 0: 없다, 1: 있다 (모르는 경우는 0으로 표기)
21 deathdate 사망일 Date yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력
22 deathsign 사망 사인 Char(1) 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망
23 lastdate 마지막 병원 방문일 Date yyyymmdd

 

2) 악성 임상 데이터

2) 악성 임상 데이터
구분 No 속성명 항목 설명 규격 및 허용범위
조직병리 1 patientid 대상자ID  
데이터 2 classification cancer 림프종의 조직학적 분류 1: 호지킨 림프종, 2: 비호지킨 림프종, 3: 기타
치료 데이터 3 CD45 CD45  
4 CD20 CD20  
5 CD5 CD5  
6 CD10 CD10  
7 CD30 CD30  
8 CD8 CD8  
9 CD23 CD23  
10 CD56 CD56  
11 BCL2 BCL-2  
12 BCL6 BCL-6  
13 Cyclin_D1 Cyclin_D1  
14 ALK ALK  
15 Cmyc C-Myc  
16 Ki-67 Ki-67 (%)  
17 WBC WBC  
18 ANC ANC  
19 ALC ALC  
20 PLT PLT  
21 Hb Hb  
22 NLR NLR  
23 PLR PLR  
24 LDH LDH(특수)  
25 PEP PEP(특수)  
PET검사 데이터 26 PRE_AD_MAX SUVmax  
27 PRE_BD_MAX SUVmax  
28 PRE_TN_MAX SUVmax  
29 PRE_SP_MAX SUVmax  
30 PRE_BM_MAX SUVmax  
31 PRE_LV_MAX SUVmax  
32 PRE_ETC_MAX SUVmax  
33 PRE_AD_DEU Deuvile score 1/2/3/4/5/x
34 PRE_BD_DEU Deuvile score 1/2/3/4/5/x
35 PRE_TN_DEU Deuvile score 1/2/3/4/5/x
36 PRE_SP_DEU Deuvile score 1/2/3/4/5/x
37 PRE_BM_DEU Deuvile score 1/2/3/4/5/x
38 PRE_LV_DEU Deuvile score 1/2/3/4/5/x
39 PRE_ETC_DEU Deuvile score 1/2/3/4/5/x
40 POST_AD_MAX SUVmax  
41 POST_BD_MAX SUVmax  
42 POST_TN_MAX SUVmax  
43 POST_SP_MAX SUVmax  
44 POST_BM_MAX SUVmax  
45 POST_LV_MAX SUVmax  
46 POST_ETC_MAX SUVmax  
47 POST_AD_DEU Deuvile score 1/2/3/4/5/x
48 POST_BD_DEU Deuvile score 1/2/3/4/5/x
49 POST_TN_DEU Deuvile score 1/2/3/4/5/x
50 POST_SP_DEU Deuvile score 1/2/3/4/5/x
51 POST_BM_DEU Deuvile score 1/2/3/4/5/x
52 POST_LV_DEU Deuvile score 1/2/3/4/5/x
53 POST_ETC_DEU Deuvile score 1/2/3/4/5/x

 

3)어노테이션 항목

3)어노테이션 항목
구분 속성명 타입 필수여부 설명 비고
1 info Object   데이터셋정보  
  1-1 info.name String Y 데이터셋명  
1-2 info.contributer String   데이터제공처  
1-3 info.description String   데이터셋 설명  
2 annotations Object   라벨링정보  
  2-1 annotations[].id String Y 라벨링식별자  
2-2 annotations[].class String Y 카테고리명 lymphoma, 림프종
2-3 annotations[].type String Y 라벨링식별자 segmentation
2-4 annotations[].coordinates Number Y Segmentation 좌표값
 

 

4)JSON 형식

 

{
  "info": [
    {
      "name": "LYMP_AJMC_B10000_PAIREDCT_0_0001.dcm",
      "contributer": "AJMC",
      "description": "Annotated Non Contrast-enhanced Computed Tomography Image of Lymphoma"
    }
  ],
  "annotations": [
    {
      "id": "b753cc7f-92a7-4efc-8976-7d0f6a9f4c02",
      "class": "lymphoma",
      "type": "segmentation",
      "coordinates": [
        [
          [
            265.3105393020798,
            325.50837151921036
          ],
          [
            262.84314416637307,
            330.09067677123716
          ],
          [
            263.5481142051464,
            334.3204970038773
          ],
          [
            266.36799436023983,
            337.84534719774405
          ],
          [
            269.8928445541066,
            340.66522735283746
          ],
          [
            274.4751498061334,
            341.7226824109975
          ],
          [
            276.59005992245346,
            341.7226824109975
          ],
          [
            275.18011984490676,
            336.43540712019734
          ],
          [
            276.59005992245346,
            332.5580719069439
          ],
          [
            276.59005992245346,
            329.3857067324638
          ],
          [
            274.4751498061334,
            326.5658265773704
          ],
          [
            270.59781459287996,
            325.50837151921036
          ],
          [
            268.1304194571732,
            325.50837151921036
          ]
        ]
      ]
    }
  ]
}

 

데이터셋 구축 담당자

수행기관(주관) : 아주대학교 산학협력단
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
허재성 031-219-5337 nahero@ajou.ac.kr 사업 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, 데이터 수집
㈜피트케어, ㈜코스모티어 데이터 정제
㈜닥터웍스 데이터 가공
㈜마인즈앤컴퍼니 AI 모델 개발, 데이터 활용
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
허재성 031-219-5337 nahero@ajou.ac.kr