공공 의료데이터 상세

썸네일

핵의학영상(PET) 이미지 데이터

##조기 진단## 딥러닝 인공지능## 영상데이터## 이미지데이터## 폐암## 혈액암## 정상대조군
핵의학 PET/CT 영상에서 폐암, 혈액암 및 정상대조군의 데이터를 수집, 정제, 가공한 AI학습용 데이터셋
분야
헬스케어
유형
이미지
생성 방식
안심존(오프라인)
  • 구축년도 : 2021
  • 버전 : 1.0
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.0 2022-07-13 데이터 개방 데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2022-07-13 산출물 공개 콘텐츠 최초 등록

소개

핵의학 PET/CT 영상에서 폐암, 혈액암 및 정상대조군의 데이터를 수집, 정제, 가공한 AI학습용 데이터셋

구축목적

종양 전신 PET의 다차원적 정량적 평가를 도울 수 있는 인공지능 모델 개발 및 PET 판독과 환자 종양상태 평가에 대한 객관적 지표 제공, 여러 임상 AI 연구에 활용하고자 함.

1) 데이터 구축 규모

질환명
질환명 서울대병원 분당서울대병원 국립암센터 세브란스병원 아주대병원 서울성모병원 소계
폐암 476 108 292 542 292 290 2,000
혈액암 468 860 468 468 468 468 3,200
정상인 58 58 58 58 410 58 700
소계 1,002 1,026 818 1,068 1,170 816 5,900

 

2) 데이터 분포

  • 폐암 원격전이(Metastasis) 여부
폐암 원격전이(Metastasis) 여부
원격전이 여부 비율(%)
없음 85
있음 15

 

  • 혈액암 치료 전/후 비율
혈액암 치료 전/후 비율
치료상태 비율(%)
치료 전 48
치료 후 52

 

  • 정상인 60세 미만/이상 비율
정상인 60세 미만/이상 비율
연령대 비율(%)
60세 미만 73
60세 이상 27

1) 모델학습
* 폐암/혈액암 종양 영역 분할 모델 개발

  •  PET/CT 영상을 입력 값, 어노테이션한 영역을 출력 값으로 한 분할 모델을 학습함
  •  학습을 위한 데이터셋(Training, Validation)과 모델 평가를 위한 데이터셋(Test)으로 나누었으며 비율은 Training : Validatation : Test = 8 : 1 : 1로 구성하였음
  •  학습에 사용된 AI 모델은 Biomedical 분야에서 이미지 분할(Image Segmentation)에 자주 사용되는 U-Net을 사용함
- Optimizer : Adam
- Loss Function : Dice Cross Entropy Loss
- Batch Size : 2
- Crop Size : 128*128*160
- Epoch : 200  
  • 분할 정확도는 DICE 계수 및 F1 score로 산출했으며 분할 모델을 통해 얻은 mask로 병변 영역 확인 가능

핵의학영상(PET) 이미지-모델학습_1


출처(U-Net) : Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 9351, Issue Cvd, pp. 234-241). https://doi.org/10.1007/978-3-319-24574-4_28 

 

2) 서비스 활용 시나리오

  • 학습된 인공지능(AI) 알고리즘을 통해 폐암/혈액암 PET/CT 영상을 분석하여 ROI 영역과 ROI 정량 값 예측 프로그램을 개발
  • 전문의는 폐암 또는 혈액암 PET/CT 영상을 프로그램에 업로드
  • 업로드된 영상은 AI 모델 서버로 영상을 전송하고 학습된 모델에서 ROI 영역 및 SUV 값을 예측하여 프로그램으로 회신

핵의학영상(PET) 이미지-서비스 활용 시나리오_1

3) 기타 정보
 포괄성

  • 폐암의 경우 원격전이(Metastasis) 없는 폐암 85%, 원격전이 있는 폐암 15%로 구성하여 다양한 질병 정도에 따른 폐암 데이터를 확보함
  • 혈액암은 기저평가와 치료효과평가를 약 50% 비율로 구성하여 현재 질병 상태(종양의 전체 볼륨)의 다양성을 확보함
  • 정상인은 신체적 기능이 정상이라 할 수 있는 건진 데이터를 다수 확보 및 질병력 없는 노년성 환자의 데이터 확보를 위해 60세 미만 73%, 60세 이상 27% 데이터를 수집함

 독립성

  • 서울대학교병원 외 컨소 구성 5개 병원에서 각 기관별 보안 관련 절차를 준수했으며 IRB 승인을 받은 데이터를 비식별화한 후 연구를 진행함
  • 환자의 의료정보가 포함된 의료 데이터(원시데이터)는 승인된 연구자 외에는 접근이 불가능함
  • 보건복지부의 보건의료 데이터 활용 가이드라인에 따라, 데이터 활용 및 제 3자의 배포를 위해서는 해당 의료 기관의 데이터 심의기관의 허가를 받아야 함

 유의사항

  • 원천 데이터는 환자 비식별화 작업을 거쳤으나 그 자체로도 민감한 의료정보이므로 데이터 수정과 배포에 유의해야 함

 

1) 데이터 포맷

1) 데이터 포맷
영상 모달리티 데이터포맷 어노테이션 항목

3D PET 이미지

핵의학영상(PET) 이미지-데이터 포맷_1_3D PET 이미지

DICOM 정상인 장기(organ),
폐암/혈액암 종양 3D segmentation

3D CT 이미지

핵의학영상(PET) 이미지-데이터 포맷_2_3D CT 이미지

DICOM  
 

 

  • 라벨링 이미지(annotation) 정보와 환자 임상정보를 결합하여 json 파일을 생성함

핵의학영상(PET) 이미지-데이터 포맷_3

 

2) 데이터 구성

핵의학영상(PET) 이미지-데이터 구성_1

 

3) 어노테이션 포맷

3) 어노테이션 포맷
구분 항목명 타입 필수여부 설명 범위 비고
1 기본정보 Object   기본정보    
  1-1 AGE NUMBER M 나이    
1-2 SEX String M 성별 “F”or“M”  
1-3 SMOKING String O 흡연력    
1-4 DM String O 과거력:당뇨    
1-;5 HTN String O 과거력:고혈압 “Y” or “N”  
1-6 PTID String M 익명화ID    
1-7 IMAGEDATE String C 영상획득날짜   혈액암
2 임상정보 Object   임상정보    
  2-1 Purpose String C 촬영목적 "BASELINE", "INTERIM", "EOT", null 혈액암
2-2 Diagnosis String O 진단명 폐암, 림프종, 정상  
2-3 CStaging String O 임상병기   TNM 병기
2-4 PStaging String O 병리병기   TNM 병기
2-5 BX_LOCATION String O 바이오마커 "Squamous cell carcinoma", "Adenocar cinoma", "Small cell lung cancer", "Adenosquamous cell carcinoma", "Large cell carcinoma", "Others", NULL  
2-6 SUBTYPE_ADC String O 바이오마커 "Papillary", "Micropapillary", "Acinar", "Lepidic", "Solid", "Others", NULL 폐암 관련 바이오마커
2-7 EGFR String O 바이오마커 Negative, "Positive", NULL 폐암 관련 바이오마커
2-8 EGFR_LOC String O 바이오마커   폐암 관련 바이오마커
2-9 ALK String O 바이오마커 "PSTAGE", "P_T", "Negative", "Positive" 폐암/혈액암 관련 바이오마커
2-10 OTHER_MUTATION String O 바이오마커 "BRAF", "HER-2", "ROS1", "KRAS", "RET", "Others" 폐 암 관 련 바이오마커
2-11 PD-L1_IHC_2 String O 바이오마커 "22C3", "28-8", "SP263", "SP142" 폐 암 관 련 바이오마커
2-12 PD-L1_IHC_3 String O 바이오마커 22C3, "28-8", "SP263", "SP142" 폐 암 관 련 바이오마커
2-13 B_SYMPTOMS String O 바이오마커 "Fever", "Night sweats", "Weight loss", "NA"  
2-14 ECOG_PS String O 바이오마커 "0", "1", "2", "3", "4" 혈액암관련 바이오마커
2-15 PREV_CTX String O 바이오마커 "ECOG_P S", "G_CSF_D ATE" 혈액암관련 바이오마커
2-16 BIOPSY_SITE String O 바이오마커 "LN region", "Spleen", "Bone marrow", "Other extranodal organ"  
2-17 PATHOLOGY_SUBTYPE String O 바이오마커 "DLBCL", "FL", "HL", "MM", "etc" 혈액암 관련 병리소견
2-18 CD45 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
2-19 CD3 String O 바이오마커 "Positive", "Negative", "reactive T cells" 혈액암관련 바이오마커
2-20 HHV8 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
2-21 SOX11 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
2-22 MYC String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
2-23 BLC6 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커
3 라벨영역정보 Object   라벨영역정보    
  3-1 ROI.type String C ROI의 종류   정상군(NULL)
"Primary", "Lymph Node 1", "Lymph Node 2", "Lymph Node 3", "Metastasis", “-” 폐암("Primary", "Lymph Node 1", "Lymph Node 2", "Lymph Node 3", "Metastasis", “-”)
"Above Diaphragm", "Below Diaphragm", "Tonsil", "Spleen", "Bone marrow", "Liver", "ETC", “-”, NULL 혈액암("Above Diaphragm", "Below Diaphragm", "Tonsil", "Spleen", "Bone marrow", "Liver", "ETC", “-”, NULL)
3-2 ROI.organ String C ROI 내의 장기 "Aorta", "Liver", "Lumbar Bone Marrow", "Mediastinal Blood Pool“, NULL 정상군
  폐암(NULL)
혈액암(NULL)
3-3 ROI.name String M ROI 이름 "aor, "liv", "lbm", "mbp“ 정 상 군
"P", "N1", "N2", "N3", "M“ 폐암
"0_AD", "0_BD", "0_TN", "0_SP", "0_BM", "0_LV", "0_ETC", "1_AD", "1_BD", "1_TN", "1_SP", "1_BM", "1_LV", "1_ETC", "2_AD", "2_BD", "2_TN", "2_SP", "2_BM", "2_LV", "2_ETC", "3_AD", "3_BD", "3_TN", "3_SP", "3_BM", "3_LV", "3_ETC", "4_AD", "4_BD", "4_TN", "4_SP", "4_BM", "4_LV", "4_ETC", "-" 혈액암
3-4 ROI.method String M ROI 생성 방법 "40%", "n", "-" Semi-auto 방식으로 생성시 방법.
정상군("n"),폐암("40%","n",“-”),혈액암("n",“-”)
3-5 ROI.id String M   “-”   
* C: Conditional – 환자군 및 ROI.type에 따라 필수여부가 정해짐
 

4) 실제 예시

4) 실제 예시
폐암 혈액암 정상인
핵의학영상(PET) 이미지-실제 예시_1_폐암 핵의학영상(PET) 이미지-실제 예시_2_혈액암 핵의학영상(PET) 이미지-실제 예시_3_정상인

 

 

 

데이터셋 구축 담당자

수행기관(주관) : 서울대학교병원
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
최홍윤 02-2072-3347 chy1000@gmail.com 데이터 수집, 정제, 가공, 검수, 알고리즘 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무
국립암센터 데이터 수집, 정제, 가공, 검수
분당서울대병원 데이터 수집, 정제, 가공, 검수
아주대 산학협력단 (아주대병원) 데이터 수집, 정제 및 가공 교육, 가공, 검수
연세대 산학협력단 (세브란스병원) 데이터 수집, 정제, 가공, 검수
가톨릭대 산학협력단 (서울성모병원) 데이터 수집, 정제 및 가공 교육, 가공, 검수
서울아산병원 데이터 검수 및 QC
㈜에이아이더뉴트리진 데이터 정제, 가공, 검수 및 QC, DB 구축, 알고리즘 개발, 서비스 개발, 홍보