| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2024-10-30 | 데이터 최종 개방 | |
| 1.0 | 2024-06-28 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-05-08 | 데이터셋 변경 | 담당자 정보 변경 |
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-06-28 | 산출물 공개 | Beta Version |
- 신장암 및 방광암 각 2천명 이상의 환자의 다양한 병리학적 아형 및 조직 분화도를 포함한 WSI 데이터 총 25,000장의 인공지능 학습용 데이터 구축 - 2,000명 이상의 신장질환 환자 대상, 신장암 WSI 12,500장 - 2,000명 이상의 방광질환 환자 대상, 방광암 WSI 12,500장
- 비뇨기계 암(신장암, 방광암)의 전체 슬라이드 이미지(whole slide image)에 라벨링 데이터 및 병리학적 정보를 포함한 고품질의 인공지능 학습용 데이터 확보 - 디지털 병리 데이터 분야의 공공 및 민간의 인공지능 기술 개발 촉진과 관련 산업 육성을 위한 인공지능 학습용 데이터 인프라 구축 및 이용환경 제공 - 인공지능 기반의 비뇨기계 암 판독 및 진단 보조를 통해 병리과 의료진의 업무부담 완화 - 병리 검사의 객관성을 확보하고 진단의 정확도를 높여 의료의 질 향상에 기여
| 데이터 영역 | 헬스케어 | 데이터 유형 | 이미지 |
|---|---|---|---|
| 데이터 형식 | Tiff | 데이터 출처 | 각 수집기관 병원 |
| 라벨링 유형 | 세그멘테이션 | 라벨링 형식 | json |
| 데이터 활용 서비스 | 신장암 및 방광암 병리 이미지 진단 보조 AI 모델 개발 | 데이터 구축년도/ 데이터 구축량 |
2023년/25,010 |
- 데이터 구축 규모
| 구분 | 원천 데이터 건수 |
라벨링 데이터 건수 |
정상 신장 WSI |
신장암 WSI |
정상 방광 WSI |
방광암 WSI |
|---|---|---|---|---|---|---|
| 비뇨기계 암 | 25,000 | 25,000 | 1,300 | 11,200 | 1,500 | 11,000 |
| 항목 | 요구사항 | |||||
| 데이터 수량 | o 신장암,Whole Slide Image(WSI) 12,500장 이상 | |||||
| - 비종양 혹은 정상 : 1,300장 | ||||||
| - 신장의 양성 신생물 : 700장 | ||||||
| - 신장의 악성 신생물 : 10,500장 | ||||||
| o 방광암 Whole Slide Image(WSI) 12,500장 이상 | ||||||
| - 비종양 혹은 정상 : 1,500장 | ||||||
| - 방광의 제자리/비침습암종 : 5,500장 | ||||||
| - 방광의 악성 : 5,500장 | ||||||
| 데이터 구성 | o 신장암, 방광암 병리이미지 데이터에 라벨링된 데이터 | |||||
| - 병변 위치 확인을 위한 라벨링 | ||||||
| - 각 세포 유형별 라벨링 | ||||||
| - EMR 기록을 바탕으로 진단정보 등 임상정보 포함 표준의료용어를 사용 메타 정보 | ||||||
| - 어노테이션 방법 : 암 관심 영역에 대한 이진데이터, 주위에 Polygon 모양을 그려 레이블 지정 | ||||||
| - 라벨링데이터 클래스 분포 : | ||||||
| • 신장 WSI – 정상, 악성, 양성 | ||||||
| • 방광 WSI – 정상, 악성, 제자리/비침습암종 | ||||||
| - DICOM으로부터 추출된 메타데이터 정보 | ||||||
| - 질환명, 질환크기, 위치 등 질환 정보 | ||||||
- 데이터 분포
| 데이터명 | 원천데이터 구분 | 구축 비율 |
|---|---|---|
| 신장 WSI | 정상 혹은 비종양 신장 병리 슬라이드 | 1,300장 (10%) |
| 신장의 양성 신생물 슬라이드 | 700장 (6%) | |
| 신장의 악성 신생물 슬라이드 | 10,500장 (84%) | |
| 방광 WSI | 정상 혹은 비종양 방광 병리 슬라이드 | 1,500장 (12%) |
| 방광의 제자리/비침습암종 슬라이드 | 5,500장 (44%) | |
| 방광의 악성 신생물 슬라이드 | 5,500장 (44%) |
- 신장암
| 데이터명 | AI모델 task | AI모델(후보) | 성능 지표 및 목표값 | Data I/O |
|---|---|---|---|---|
| 신장암 | Segmentation | U-Net | Dice-Coefficient (0.85) | Input: 신장암 WSI Output: Segmentation |
![]() |
||||
| 신장암 | AI모델 task | AI모델(후보) | 성능 지표 및 목표값 | Data I/O |
| Classification | Multiple Instance Learning (MIL), CNN | F1-Score (0.85) | Input: 신장암 WSI Output: Prediction Result (정상, 양성, 악성) |
|
![]() |
||||
| Multiple Instance Learning 프로세스 | ||||
![]() |
||||
| EfficientNet 아키텍쳐 | ||||
- 방광암
| 데이터명 | AI모델 task | AI모델(후보) | 성능 지표 및 목표값 | Data I/O |
|---|---|---|---|---|
| 방광암 | Segmentation | FCN (Fully Convolutional networks), U-Net, DeepLab v3+ |
Dice-Coefficient (0.85) | Input: 방광암 WSI Output: Segmentation |
![]() |
||||
| 방광암 | AI모델 task | AI모델(후보) | 성능 지표 및 목표값 | Data I/O |
| Classification | Multiple Instance Learning (MIL), CNN | F1-Score (0.85) |
Input: 방광암 WSI (정상, 제자리/비침습암종, 악성) |
|
![]() |
||||
- 원천 데이터
| 1차 경로 | 2차 경로 | 3차 경로 | 파일 포맷 |
|---|---|---|---|
| 비뇨기계 암 병리이미지 데이터 | 신장암WSI | 정상 | tiff |
| 악성 | tiff | ||
| 양성 | tiff | ||
| 방광암WSI | 정상 | tiff | |
| 제자리암종 | tiff | ||
| 악성 | tiff | ||
| 총 수량 | 25,000 | ||
- 라벨링 데이터
| 1차 경로 | 2차 경로 | 3차 경로 | 파일 포맷 |
|---|---|---|---|
| 비뇨기계 암 병리이미지 데이터 | 신장암WSI | 정상 | json |
| 악성 | json | ||
| 양성 | json | ||
| 방광암WSI | 정상 | json | |
| 제자리암종 | json | ||
| 악성 | json | ||
| 총 수량 | 25,000 | ||
- 원천 데이터 및 Annotaion 라벨 이미지 예시
| 데이터명 | 원천데이터 | Annotation 라벨 이미지 |
|---|---|---|
| 신장암WSI | ![]() |
|
| 종양 부위와 비종양 영역을 라벨링함 | ||
| 방광암WSI | ![]() |
![]() |
| 종양 부위와 비종양 영역을 라벨링함 |
- 폴더명 구성 정보
| 경로 구분 정보 | 구분자 정보 | |
|---|---|---|
| 1차 경로 | 데이터 종류 | 원천데이터 / 라벨링데이터 |
| 2차 경로 | 암 종류 | 신장WSI / 방광WSI |
| 3차 경로 | 병변 종류 | 정상(비종양) / 종양(양성) / 종양(악성) |
- 파일명 구성 정보
| 예시 | 세부 구성 설명 |
|---|---|
| KIOP-SS-00001-S-TP-01.tiff | 신장암-병원명-원천데이터 일련번호-슬라이드 타입-비종양/종양-슬라이드번호 |
| BLOP-SS-00001-S-TP-01.tiff | 방광암-병원명-원천데이터 일련번호-슬라이드 타입-비종양/종양-슬라이드번호 |
- 라벨 구성요소
- 신장암
| 구분 | 속성명 | 타입 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|
| 1 | patient | object | 데이터 정보 | - | ||
| 1-1 | nia_id | string | 증례 일련번호 | [00000,99999] | ||
| 1-2 | tumor_code | string | 종양 코드 | KIOP | ||
| 1-3 | patient_no | string | 참여기관명 - 이미지(WSI) 원천데이터 일련번호 |
[SS, US, SV, KA, AJ]-[00001, 99999] | ||
| 2 | clinical | object | 임상정보 구분 | - | ||
| 2-1 | age_year_at_surgery | int | 병리 진단 당시 연령 | [0,100] | ||
| 2-2 | sex | string | 성별 | Male, Female | ||
| 2-3 | operation | string | 수술 방법 및 검체 종류 |
Radical, partial, other | ||
| 2-4 | site | string | 종양 위치 | Right, Left, Trigone | ||
| 2-5 | pole | string | 장기내 세부 위치 | Upper, Middle, Lower, Whole, Posterior, NA | ||
| 2-6 | diagnosis | string | 병리 진단 | RCC_clear, RCC_papillary, RCC_chromophobe, RCC_MiT translocation, RCC_acuired_cystic, RCC_clear cell papillary, Collecting duct ca, Multilocular cystic_LMP, oncocytoma, RCC_tubulocystic, RCC_SDH deficient, RCC_HLRCC, Renal medullary ca, RCC_unclassified, Angiomyolipoma, RCC_metastatic, other |
||
| 2-7 | Category | string | 병변명 | Benign, Malignant, Normal/nontumor | ||
| 2-8 | nuclear_grade | string | 세포핵 등급 | I, II, III, IV | ||
| 2-9 | Tumor_size_cm | int | 종양 크기 | [0.1,100] | ||
| 2-10 | renal_vein_invasion | string | 신정맥 침범 유무 | Absent, Present | ||
| 2-11 | perirenal_fat_invasion | string | 신장외부 지방 조직 침범 유무 |
Absent, Present | ||
| 2-12 | tumor_necrosis | string | 종양 괴사 유무 | Absent, Present | ||
| 2-13 | resection_margin_ involvement |
string | 절제연 침범 유무 | Absent, Present | ||
| 2-14 | pT_AJCC8 | string | AJCC 8판에 따른 병기 T category |
pT0, pT1, pT2a, pT2b, pT3a, pT3b, pT3c, pT4, pTx, benign (not applicable) |
||
| 2-15 | pN_AJCC8 | string | AJCC 8판에 따른 병기 N category |
pN0, pN1, pNx, benign (not applicable) | ||
| 3 | file | object | 파일정보 | - | ||
| 3-1 | filename | string | 원천데이터 이름 | [KIOP-SS-00001-S-TP-01.tiff, KIOP-SS-99999-S-TP-10.tiff] [KIOP-US-00001-S-TP-01.tiff, KIOP-US-99999-S-TP-10.tiff] [KIOP-SV-00001-S-TP-01.tiff, KIOP-SV-99999-S-TP-10.tiff] [KIOP-AJ-00001-S-TP-01.tiff, KIOP-AJ-99999-S-TP-10.tiff] [KIOP-KA-00001-S-TP-01.tiff, KIOP-KA-99999-S-TP-10.tiff] |
||
| 3-2 | filesize | int | 파일 크기 | [0, 10,000,000] | ||
| 3-3 | mpp_X | int | Micrometers Per Pixel_X축 |
[0.1, 0.9] | ||
| 3-4 | mpp_Y | int | Micrometers Per Pixel_Y축 |
[0.1, 0.9] | ||
| 3-5 | origin_extension | string | 원시 데이터 저장 파일 형식 |
ndpi, svs, mrxs, tiff | ||
| 4 | objects | object | 라벨 구분 | - | ||
| 4-1 | type | string | annotation타입 | polygon | ||
| 4-2 | label | string | 라벨정보 | NT_normal_renal, NT_normal_extrarenal, TP_benign, TP_malignant |
||
| 4-3 | label_desc | string | 라벨 상세정보 | - | ||
| 4-4 | coordinate | int | annotation좌표값 | 좌표 [X,Y] | ||
- 방광암
| 구분 | 속성명 | 타입 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|
| 1 | patient | object | 데이터 정보 | - | ||
| 1-1 | nia_id | string | 증례 일련번호 | [00000,99999] | ||
| 1-2 | tumor_code | string | 종양 코드 | BLOP | ||
| 1-3 | patient_no | string | 참여기관명 - 이미지(WSI) 원천데이터 일련번호 |
[SS, US, SV, KA, AJ]-[00001, 99999] | ||
| 2 | clinical | object | 임상정보 구분 | - | ||
| 2-1 | age_year_at_surgery | int | 병리 진단 당시 연령 | [0,100] | ||
| 2-2 | sex | string | 성별 | Male, Female | ||
| 2-3 | operation | string | 수술 방법 및 검체 종류 | Partial cystectomy, Radical cystectomy, | ||
| Radical cystoprostatectomy, TUR-BT, Biopsy, | ||||||
| Excision, Anterior exenteration, Other | ||||||
| 2-4 | site | string | 종양 위치 | Right, Left, Trigone | ||
| 2-5 | diagnosis | string | 병리 진단 | Non-neoplastic lesion, Urothelial papilloma, Inverted urothelial papilloma, Papillary urothelial neoplasm of low malignant potential, Non-invasive papillary urothelial carcinoma, Invasive papillary urothelial carcinoma, Urothelial carcinoma in situ, Squamous cell carcinoma, Verrucous carcinoma, Squamous cell carcinoma in situ, Adenocarcinoma, Adenocarcinoma in situ, Clear cell carcinoma, Endometrioid carcinoma, Small cell neuroendocrine carcinoma, Large cell neuroendocrine carcinoma, Well-differentiated neuroendocrine carcinoma, Other |
||
| 2-6 | Category | string | 병변명 | In situ/Non-invasive papillary urothelial carcinoma, Malignant, Normal/nontumor |
||
| inflammation | ||||||
| 2-7 | Tumor_size_cm(total) | int | 종양 크기 | [0.1,100] | ||
| 2-8 | pT_AJCC8 | string | AJCC 8판에 따른 병기 T category | pT0, pT1, pT2a, pT2b, pT3a, pT3b, pT3c, pT4, pTx, non-malignant (not applicable) |
||
| 2-9 | pN_AJCC8 | string | AJCC 8판에 따른 병기 N category | pN0, pN1, pNx, non-malignant (not applicable) | ||
| 3 | file | object | 파일정보 | - | ||
| 3-1 | filename | string | 파일명 | [BLOP-SS-00001-S-TP-01.tiff, BLOP-SS-99999-S-TP-10.tiff] [BLOP-US-00001-S-TP-01.tiff, BLOP-US-99999-S-TP-10.tiff] [BLOP-SV-00001-S-TP-01.tiff, BLOP-SV-99999-S-TP-10.tiff] [BLOP-AJ-00001-S-TP-01.tiff, BLOP-AJ-99999-S-TP-10.tiff] [BLOP-KA-00001-S-TP-01.tiff, BLOP-KA-99999-S-TP-10.tiff] |
||
| 3-2 | filesize | int | 파일 크기 | [0, 10,000,000] | ||
| 3-3 | mpp_X | int | Micrometers Per Pixel_X축 | [0.1, 0.9] | ||
| 3-4 | mpp_Y | int | Micrometers Per Pixel_Y축 | [0.1, 0.9] | ||
| 3-5 | origin_extension | string | 원시 데이터 저장 파일 형식 | ndpi, svs, mrxs, tiff | ||
| 4 | objects | object | 라벨 구분 | - | ||
| 4-1 | type | string | annotation타입 | polygon | ||
| 4-2 | label | string | 라벨정보 | NT_normal, NT_inflammation, TP_tumor | ||
| 4ㅡ3 | label_desc | string | 라벨 상세정보 | - | ||
| 4-4 | coordinate | int | annotation좌표값 | 좌표 [X,Y] | ||
- json 실제예시

| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 정찬권 | 02-2258-1622 | ckjung@catholic.ac.kr | 데이터 수집, 정제, 가공교육, 검수 및 사업 총괄 |
| 기관명 | 담당업무 |
|---|---|
| 고려대학교의료원 | 데이터 수집 및 검수 |
| 아주대학교 산학협력단 | 데이터 수집 및 검수 |
| (의료)길의료재단 | 데이터 수집 및 검수, 방광암 분할/분류 AI모델 개발, 품질관리 |
| ㈜어반데이터랩 | 클라우드 플랫폼 제공, 사업관리 총괄 |
| ㈜데이터누리 | 데이터 가공 및 관리 |
| ㈜디지털팜 | 신장암 분할, 분류 AI 모델 개발 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 정문성 | 02-743-1257 | wjd3952@urbancorp.co.kr |
| 이승호 | 02-743-1257 | leesh@urbancorp.co.kr |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 김지섭 | 032-460-3869 | jspath@gilhospital.com |
| 박준영 | 010-4532-4067 | jun0613@gachon.ac.kr |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 김지섭 | 032-460-3869 | jspath@gilhospital.com |
| 박준영 | 010-4532-4067 | jun0613@gachon.ac.kr |