공공 의료데이터 상세

썸네일

비뇨기계 암 병리이미지 데이터

##헬스케어 의료
- 신장암 및 방광암 각 2천명 이상의 환자의 다양한 병리학적 아형 및 조직 분화도를 포함한 WSI 데이터 총 25,000장의 인공지능 학습용 데이터 구축 - 2,000명 이상의 신장질환 환자 대상, 신장암 WSI 12,500장 - 2,000명 이상의 방광질환 환자 대상, 방광암 WSI 12,500장
분야
헬스케어
유형
이미지
생성 방식
안심존(온라인)
  • 구축년도 : 2023
  • 버전 : 1.1
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.1 2024-10-30 데이터 최종 개방
1.0 2024-06-28 데이터 개방 Beta Version

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-05-08 데이터셋 변경 담당자 정보 변경
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2024-06-28 산출물 공개 Beta Version

소개

- 신장암 및 방광암 각 2천명 이상의 환자의 다양한 병리학적 아형 및 조직 분화도를 포함한 WSI 데이터 총 25,000장의 인공지능 학습용 데이터 구축
  - 2,000명 이상의 신장질환 환자 대상, 신장암 WSI 12,500장
  - 2,000명 이상의 방광질환 환자 대상, 방광암 WSI 12,500장

구축목적

- 비뇨기계 암(신장암, 방광암)의 전체 슬라이드 이미지(whole slide image)에 라벨링 데이터 및 병리학적 정보를 포함한 고품질의 인공지능 학습용 데이터 확보
- 디지털 병리 데이터 분야의 공공 및 민간의 인공지능 기술 개발 촉진과 관련 산업 육성을 위한 인공지능 학습용 데이터 인프라 구축 및 이용환경 제공
- 인공지능 기반의 비뇨기계 암 판독 및 진단 보조를 통해 병리과 의료진의 업무부담 완화
- 병리 검사의 객관성을 확보하고 진단의 정확도를 높여 의료의 질 향상에 기여

- 데이터 구축 규모 

데이터 구축 규모
구분 원천
데이터 건수
라벨링
데이터 건수
정상 신장
WSI
신장암
WSI
정상 방광
WSI
방광암
WSI
비뇨기계 암 25,000 25,000 1,300 11,200 1,500 11,000
항목 요구사항
데이터 수량 o 신장암,Whole Slide Image(WSI) 12,500장 이상
 - 비종양 혹은 정상 : 1,300장
 - 신장의 양성 신생물 : 700장
 - 신장의 악성 신생물 : 10,500장
o 방광암 Whole Slide Image(WSI) 12,500장 이상
 - 비종양 혹은 정상 : 1,500장
 - 방광의 제자리/비침습암종 : 5,500장
 - 방광의 악성 : 5,500장
데이터 구성 o 신장암, 방광암 병리이미지 데이터에 라벨링된 데이터
 - 병변 위치 확인을 위한 라벨링
 - 각 세포 유형별 라벨링
 - EMR 기록을 바탕으로 진단정보 등 임상정보 포함 표준의료용어를 사용 메타 정보
 - 어노테이션 방법 : 암 관심 영역에 대한 이진데이터, 주위에 Polygon 모양을 그려 레이블 지정
 - 라벨링데이터 클래스 분포 : 
   • 신장 WSI – 정상, 악성, 양성
   • 방광 WSI – 정상, 악성, 제자리/비침습암종
 - DICOM으로부터 추출된 메타데이터 정보
 - 질환명, 질환크기, 위치 등 질환 정보

 

- 데이터 분포

데이터 분포
데이터명 원천데이터 구분 구축 비율
신장 WSI 정상 혹은 비종양 신장 병리 슬라이드 1,300장 (10%)
신장의 양성 신생물 슬라이드 700장 (6%)
신장의 악성 신생물 슬라이드 10,500장 (84%)
방광 WSI 정상 혹은 비종양 방광 병리 슬라이드 1,500장 (12%)
방광의 제자리/비침습암종 슬라이드 5,500장 (44%)
방광의 악성 신생물 슬라이드 5,500장 (44%)

- 신장암

신장암
데이터명 AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O
신장암 Segmentation U-Net Dice-Coefficient (0.85) Input: 신장암 WSI
Output: Segmentation 
신장암 AI모델 설명 이미지 1
신장암 AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O
Classification Multiple Instance Learning (MIL), CNN F1-Score (0.85) Input: 신장암 WSI
Output: Prediction Result (정상, 양성, 악성)
신장암 AI모델 설명 이미지 2
Multiple Instance Learning 프로세스
신장암 AI모델 설명 이미지 3
EfficientNet 아키텍쳐

 

- 방광암

방광암
데이터명 AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O
방광암 Segmentation FCN (Fully Convolutional networks),
U-Net, DeepLab v3+
Dice-Coefficient (0.85) Input: 방광암 WSI
Output: Segmentation
방광암 ai모델 설명 이미지1
방광암 AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O
Classification Multiple Instance Learning (MIL), CNN F1-Score (0.85)

Input: 방광암 WSI
Output: Prediction Result

(정상, 제자리/비침습암종, 악성)

방광암 ai모델 설명 이미지2

- 원천 데이터

원천 데이터
1차 경로  2차 경로 3차 경로 파일 포맷
비뇨기계 암 병리이미지 데이터 신장암WSI 정상 tiff
악성 tiff
양성 tiff
방광암WSI 정상 tiff
제자리암종 tiff
악성 tiff
총 수량 25,000

 

- 라벨링 데이터

라벨링 데이터
1차 경로  2차 경로 3차 경로 파일 포맷
비뇨기계 암 병리이미지 데이터 신장암WSI 정상 json
악성 json
양성 json
방광암WSI 정상 json
제자리암종 json
악성 json
총 수량 25,000

 

- 원천 데이터 및 Annotaion 라벨 이미지 예시

원천 데이터 및 Annotaion 라벨 이미지 예시
데이터명 원천데이터 Annotation 라벨 이미지
신장암WSI 신장WSI_원천데이터 이미지

신장WSI_Annitation 라벨 이미지

종양 부위와 비종양 영역을 라벨링함
방광암WSI 방광암WSI_원천데이터 이미지 방광암WSI Annotation 라벨 이미지
종양 부위와 비종양 영역을 라벨링함

 

- 폴더명 구성 정보

폴더명 구성 정보
경로 구분 정보 구분자 정보
1차 경로 데이터 종류 원천데이터 / 라벨링데이터 
2차 경로 암 종류 신장WSI / 방광WSI
3차 경로 병변 종류 정상(비종양) / 종양(양성) / 종양(악성)

 

- 파일명 구성 정보

파일명 구성 정보
예시 세부 구성 설명
KIOP-SS-00001-S-TP-01.tiff 신장암-병원명-원천데이터 일련번호-슬라이드 타입-비종양/종양-슬라이드번호
BLOP-SS-00001-S-TP-01.tiff 방광암-병원명-원천데이터 일련번호-슬라이드 타입-비종양/종양-슬라이드번호

 

- 라벨 구성요소
  - 신장암

신장암
구분 속성명 타입 설명 범위 비고
1 patient object 데이터 정보 -  
  1-1 nia_id string 증례 일련번호 [00000,99999]  
1-2 tumor_code string 종양 코드 KIOP  
1-3 patient_no string 참여기관명 - 이미지(WSI)
원천데이터 일련번호
[SS, US, SV, KA, AJ]-[00001, 99999]  
2 clinical object 임상정보 구분 -  
  2-1 age_year_at_surgery int 병리 진단 당시 연령 [0,100]  
2-2 sex string 성별 Male, Female  
2-3 operation string 수술 방법 및
검체 종류
Radical, partial, other  
2-4 site string 종양 위치 Right, Left, Trigone  
2-5 pole string 장기내 세부 위치 Upper, Middle, Lower, Whole, Posterior, NA  
2-6 diagnosis string 병리 진단 RCC_clear, RCC_papillary, RCC_chromophobe,
RCC_MiT translocation, RCC_acuired_cystic,
RCC_clear cell papillary, Collecting duct ca,
Multilocular cystic_LMP, oncocytoma,
RCC_tubulocystic, RCC_SDH deficient,
RCC_HLRCC, Renal medullary ca,
RCC_unclassified, Angiomyolipoma,
RCC_metastatic, other
 
2-7 Category string 병변명 Benign, Malignant, Normal/nontumor  
2-8 nuclear_grade string 세포핵 등급 I, II, III, IV  
2-9 Tumor_size_cm int 종양 크기 [0.1,100]  
2-10 renal_vein_invasion string 신정맥 침범 유무 Absent, Present  
2-11 perirenal_fat_invasion string 신장외부 지방 조직
침범 유무
Absent, Present  
2-12 tumor_necrosis string 종양 괴사 유무 Absent, Present  
2-13 resection_margin_
involvement
string 절제연 침범 유무 Absent, Present  
2-14 pT_AJCC8 string AJCC 8판에 따른 병기
T category
pT0, pT1, pT2a, pT2b, pT3a, pT3b, pT3c, pT4,
pTx, benign (not applicable)
 
2-15 pN_AJCC8 string AJCC 8판에 따른 병기
 N category
pN0, pN1, pNx, benign (not applicable)  
3 file object 파일정보 -  
  3-1 filename string 원천데이터 이름 [KIOP-SS-00001-S-TP-01.tiff,
KIOP-SS-99999-S-TP-10.tiff]
[KIOP-US-00001-S-TP-01.tiff,
KIOP-US-99999-S-TP-10.tiff]
[KIOP-SV-00001-S-TP-01.tiff,
KIOP-SV-99999-S-TP-10.tiff]
[KIOP-AJ-00001-S-TP-01.tiff,
KIOP-AJ-99999-S-TP-10.tiff]
[KIOP-KA-00001-S-TP-01.tiff,
KIOP-KA-99999-S-TP-10.tiff]
 
3-2 filesize int 파일 크기 [0, 10,000,000]  
3-3 mpp_X int Micrometers Per
Pixel_X축
[0.1, 0.9]  
3-4 mpp_Y int Micrometers Per
Pixel_Y축
[0.1, 0.9]  
3-5 origin_extension string 원시 데이터
저장 파일 형식
ndpi, svs, mrxs, tiff  
4 objects object 라벨 구분 -  
  4-1 type string annotation타입 polygon  
4-2 label string 라벨정보 NT_normal_renal, NT_normal_extrarenal,
TP_benign, TP_malignant
 
4-3 label_desc string 라벨 상세정보  -  
4-4 coordinate int annotation좌표값 좌표 [X,Y]  

  - 방광암

방광암
구분 속성명 타입 설명 범위 비고
1 patient object 데이터 정보 -  
  1-1 nia_id string 증례 일련번호 [00000,99999]  
1-2 tumor_code string 종양 코드 BLOP  
1-3 patient_no string 참여기관명 - 이미지(WSI)
원천데이터 일련번호
[SS, US, SV, KA, AJ]-[00001, 99999]  
2 clinical object 임상정보 구분 -  
  2-1 age_year_at_surgery int 병리 진단 당시 연령 [0,100]  
  2-2 sex string 성별 Male, Female  
  2-3 operation string 수술 방법 및 검체 종류 Partial cystectomy, Radical cystectomy,  
Radical cystoprostatectomy, TUR-BT, Biopsy,
Excision, Anterior exenteration, Other
  2-4 site string 종양 위치 Right, Left, Trigone  
  2-5 diagnosis string 병리 진단 Non-neoplastic lesion,
Urothelial papilloma, Inverted urothelial
papilloma, Papillary urothelial neoplasm of
low malignant potential, Non-invasive
papillary urothelial carcinoma, Invasive
papillary urothelial carcinoma, Urothelial
carcinoma in situ, Squamous cell carcinoma,
Verrucous carcinoma, Squamous cell carcinoma
in situ, Adenocarcinoma, Adenocarcinoma in
situ, Clear cell carcinoma, Endometrioid
carcinoma, Small cell neuroendocrine
carcinoma, Large cell neuroendocrine
carcinoma, Well-differentiated neuroendocrine
carcinoma, Other
 
  2-6 Category string 병변명 In situ/Non-invasive papillary urothelial carcinoma,
Malignant, Normal/nontumor
 
inflammation
2-7 Tumor_size_cm(total) int 종양 크기 [0.1,100]  
  2-8 pT_AJCC8 string AJCC 8판에 따른 병기 T category pT0, pT1, pT2a, pT2b, pT3a, pT3b, pT3c, pT4,
pTx, non-malignant (not applicable)
 
  2-9 pN_AJCC8 string AJCC 8판에 따른 병기 N category pN0, pN1, pNx, non-malignant (not applicable)  
3 file object 파일정보 -  
  3-1 filename string 파일명 [BLOP-SS-00001-S-TP-01.tiff,
BLOP-SS-99999-S-TP-10.tiff]
[BLOP-US-00001-S-TP-01.tiff,
BLOP-US-99999-S-TP-10.tiff]
[BLOP-SV-00001-S-TP-01.tiff,
BLOP-SV-99999-S-TP-10.tiff]
[BLOP-AJ-00001-S-TP-01.tiff,
BLOP-AJ-99999-S-TP-10.tiff]
[BLOP-KA-00001-S-TP-01.tiff,
BLOP-KA-99999-S-TP-10.tiff]
 
3-2 filesize int 파일 크기 [0, 10,000,000]  
3-3 mpp_X int Micrometers Per Pixel_X축 [0.1, 0.9]  
3-4 mpp_Y int Micrometers Per Pixel_Y축 [0.1, 0.9]  
3-5 origin_extension string 원시 데이터 저장 파일 형식 ndpi, svs, mrxs, tiff  
4 objects object 라벨 구분 -  
  4-1 type string annotation타입 polygon  
4-2 label string 라벨정보 NT_normal, NT_inflammation, TP_tumor  
4ㅡ3 label_desc string 라벨 상세정보 -  
4-4 coordinate int annotation좌표값 좌표 [X,Y]  

 

- json 실제예시

json 실제 예시 이미지

데이터셋 구축 담당자

수행기관(주관) : 가톨릭대학교 산학협력단
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
정찬권 02-2258-1622 ckjung@catholic.ac.kr 데이터 수집, 정제, 가공교육, 검수 및 사업 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
고려대학교의료원 데이터 수집 및 검수
아주대학교 산학협력단 데이터 수집 및 검수
(의료)길의료재단 데이터 수집 및 검수, 방광암 분할/분류 AI모델 개발, 품질관리
㈜어반데이터랩 클라우드 플랫폼 제공, 사업관리 총괄
㈜데이터누리 데이터 가공 및 관리
㈜디지털팜 신장암 분할, 분류 AI 모델 개발
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
정문성 02-743-1257 wjd3952@urbancorp.co.kr
이승호 02-743-1257 leesh@urbancorp.co.kr
AI모델 관련 문의처
AI모델 관련 문의처
담당자명 전화번호 이메일
김지섭 032-460-3869 jspath@gilhospital.com
박준영 010-4532-4067 jun0613@gachon.ac.kr
저작도구 관련 문의처
저작도구 관련 문의처
담당자명 전화번호 이메일
김지섭 032-460-3869 jspath@gilhospital.com
박준영 010-4532-4067 jun0613@gachon.ac.kr