| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2024-01-19 | 데이터 최종 개방 | |
| 1.0 | 2023-05-26 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-05-08 | 데이터셋 변경 | 구축업체정보 수정 |
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-03-20 | 산출물 최종 공개 |
11개의 의료기관에서 획득한 소아 엑스레이 데이터로 신생아 카테터 중심의 신생아 질환 진단, 소아 복부 질환으로 총 신생아 카테터 엑스레이 데이터 64,000장 이상, 소아 복부 엑스레이 이미지 50,000장 이상의 다양한 영상을 Annotaion한 데이터셋으로 임상 정보와 관련한 구조화된 데이터를 구축
인공지능 개발을 위한 의료 영상, 이미지 기반의 의료 지식 베이스 구축 및 AI 기반 신생아 카테터 위치 및 소아 복부 질환 판정 및 진단 치료 분석을 위한 임상적 진단의 상관관계 분석을 위한 학습용 데이터셋
| 데이터 영역 | 헬스케어 | 데이터 유형 | 텍스트 , 이미지 |
|---|---|---|---|
| 데이터 형식 | txt | 데이터 출처 | 신생아 카테터 엑스레이 : 병원에서 진료 목적으로 촬영된 이미지 데이터 EMR : 병원에서 치료 목적으로 수집한 임상 데이터 |
| 라벨링 유형 | 세그멘테이션(이미지) | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | 데이터 구축년도/ 데이터 구축량 |
2022년/145,992 |
1. 데이터 구축 규모
-재태주수 기준
| 항목 | 데이터 수 | 28주 미만 | 28주 이상 | 33주 이상 | |
|---|---|---|---|---|---|
| 32주 이하 | |||||
| BPD | 3,000 | 2,000 | 1,000 | 0 | |
| TTN | 5,500 | 500 | 250 | 4,750 | |
| NEC | 2,500 | 1,500 | 500 | 500 | |
| atelectasis | 3,000 | 1,200 | 600 | 1,200 | |
| air leak | 5,000 | 1,500 | 500 | 3,000 | |
| RDS | 11,000 | 3,000 | 4,000 | 4,000 | |
| 정상군 | 10,000 | 1,000 | 1,000 | 8,000 | |
| ET tube | 6,500 | 2,000 | 2,000 | 2,500 | |
| g tube | 5,000 | 1,500 | 1,500 | 2,000 | |
| UVC | 4,000 | 2,200 | 750 | 1,000 | |
| UAC | 3,500 | 3,000 | 250 | 250 | |
| PICC | 5,000 | 2,000 | 2,000 | 1,000 | |
| 총 데이터 양 | 64,000 | 21,450 | 14,350 | 28,200 | |
-출생체중 기준
| 항목 | 데이터 수 | <1000g | 1000-1500g | 1500g≤ |
|---|---|---|---|---|
| BPD | 3,000 | 2,000 | 1,000 | 0 |
| TTN | 5,500 | 0 | 0 | 5,500 |
| NEC | 2,500 | 1,500 | 500 | 500 |
| atelectasis | 3,000 | 1,000 | 1,000 | 1,000 |
| air leak | 5,000 | 1,000 | 500 | 3,500 |
| RDS | 11,000 | 3,000 | 4,000 | 4,000 |
| 정상군 | 10,000 | 0 | 500 | 9,500 |
| ET tube | 6,500 | 2,000 | 2,000 | 2,500 |
| g tube | 5,000 | 1,000 | 1,500 | 2,500 |
| UVC | 4,000 | 2,000 | 750 | 1,250 |
| UAC | 3,500 | 3,000 | 250 | 250 |
| PICC | 5,000 | 2,000 | 2,000 | 1,000 |
| 총 데이터 양 | 64,000 | 18,500 | 14,000 | 31,500 |
2. 데이터 분포
| 구분 | 재태주수 분포 | 출생기준 분포 |
|---|---|---|
| 정상 (C00) | GA01 : 1,000(9.86%) | BW01 : 67(0.66%) |
| GA02 : 1,140(11.24%) | BW02 : 568(5.60%) | |
| GA03 : 8,000(78.90%) | BW03 : 9,505(93.74%) | |
| RDS (C01) | GA01 : 3,664(22.98%) | BW01 : 3,368(21.13%) |
| GA02 : 5,557(34.86%) | BW02 : 4,778(29.97%) | |
| GA03 : 6,721(42.16%) | BW03 : 7,796(48.90%) | |
| TTN (C02) | GA01 : 620(10.30%) | BW01 : 39(0.65%) |
| GA02 : 260(4.32%) | BW02 : 196(3.26%) | |
| GA03 : 5,140(85.38%) | BW03 : 5,785(96.10%) | |
| BPD (C03) | GA01 : 2,068(60.63%) | BW01 : 2,047(60.01%) |
| GA02 : 1,240(36.35%) | BW02 : 1,234(36.18%) | |
| GA03 : 103(3.02%) | BW03 : 130(3.81%) | |
| Atelectasis (C04) | GA01 : 1,259(38.53%) | BW01 : 1,224(37.45%) |
| GA02 : 694(21.24%) | BW02 : 1,000(30.60%) | |
| GA03 : 1,315(40.24%) | BW03 : 1,044(31.95%) | |
| Air leak syndrome (C05) | GA01 : 1,511(29.52%) | BW01 : 1,083(21.16%) |
| GA02 : 515(10.06%) | BW02 : 501(9.79%) | |
| GA03 : 3,093(6042%) | BW03 : 3,535(69.06%) | |
| NEC (C06) | GA01 : 1,507(59.94%) | BW01 : 1,509(60.02%) |
| GA02 : 500(19.89%) | BW02 : 504(20.05%) | |
| GA03 : 507(20.17%) | BW03 : 501(19.93%) | |
| ET-tube (C07) | GA01 : 2,004(30.35%) | BW01 : 2,075(38.26%) |
| GA02 : 2,005(30.37%) | BW02 : 2,001(30.31%) | |
| GA03 : 2,593(39.28%) | BW03 : 2,526(38.26%) | |
| NG-tube (C08) | GA01 : 1,716(29.24%) | BW01 : 1,152(19.63%) |
| GA02 : 1,517(25.85%) | BW02 : 1,503(25.61%) | |
| GA03 : 2,635(44.90%) | BW03 : 3,213(54.75%) | |
| PICC (C09) | GA01 : 2,302(37.29%) | BW01 : 2,223(36.01%) |
| GA02 : 2,130(34.50%) | BW02 : 2,126(34.43%) | |
| GA03 : 1,742(28.22%) | BW03 : 1,825(29.56%) | |
| UAC (C10) | GA01 : 3,011(85.52%) | BW01 : 3,008(85.43%) |
| GA02 : 252(7.16%) | BW02 : 251(7.13%) | |
| GA03 : 258(7.33%) | BW03 : 262(7.44%) | |
| UVC (C11) | GA01 : 2,457(37.29%) | BW01 : 2,374(53.89%) |
| GA02 : 770(17.48%) | BW02 : 751(17.05%) | |
| GA03 : 1,178(26.74%) | BW03 : 1,280(29.06%) |
(1) 신생아 엑스레이 영상에서의 카테터 분할 모델
- 기능: 신생아 엑스레이 영상에서 총 5가지 종류의 카테터(ET-tube, NG-tube, PICC, UAC, UVC)를 분할
- 사용 모델: U-Net

카테터 분할 모델 구조도
- 모델 출력: 영상과 동일한 크기의 카테터 영역이 표시된 이진 마스크 이미지로, 그 예시는 아래와 같음 (빨간색: 모델 예측 영역, 초록색: 정답 영역, 노란색: 모델이 정답을 맞춘 영역)

ET-tube 분할 결과

NG-tube 분할 결과

PICC 분할 결과

UAC 분할 결과

UVC 분할 결과
- 모델 성능: 테스트 세트 3,975건에 대해 평균 dice score 78% 달성하였으며, 각 카테터에 대한 성능은 아래와 같음
| Dice score | 테스트 데이터 수 | |
|---|---|---|
| ET-tube | 0.85 | 677 |
| NG-tube | 0.8 | 587 |
| PICC | 0.77 | 627 |
| UAC | 0.76 | 352 |
| UVC | 0.72 | 440 |
(2) 신생아 엑스레이 영상에서의 흉부 질환 분류 모델
- 기능: 신생아 엑스레이 영상에서 총 7가지 종류의 흉부 질환(Airleak syndrome, Atelectasis, BPD, NEC, RDS, TTN, 정상)을 분류
- 사용 모델: ResNet-50

- 모델 성능: 테스트 세트 4,517건에 대해 정확도(accuracy) 83% 달성하였으며, 각 질환에 대한 혼동 행렬 (confusion matrix)는 아래와 같음
| 모델 예측 | ||||||||
|---|---|---|---|---|---|---|---|---|
| 정답 | Airleak | Atelectasis | BPD | NEC | Normal | RDS | TTN | |
| Airleak | 394 | 22 | 0 | 0 | 21 | 49 | 15 | |
| Atelectasis | 15 | 254 | 13 | 0 | 7 | 33 | 4 | |
| BPD | 1 | 32 | 282 | 0 | 6 | 14 | 2 | |
| NEC | 7 | 108 | 5 | 72 | 8 | 7 | 10 | |
| Normal | 4 | 2 | 0 | 0 | 836 | 12 | 86 | |
| RDS | 16 | 9 | 2 | 0 | 2 | 1457 | 108 | |
| TTN | 2 | 1 | 0 | 0 | 80 | 67 | 452 | |
데이터 구성
| Key | Description | Type |
|---|---|---|
| annotation | 어노테이션정보 | array |
| m_isClosed | 폴리곤 개방여부 | boolean |
| m_area | 면적 | number |
| m_points | 객체좌표 | array |
| x | x좌표 | number |
| y | y좌표 | number |
| label | 카테고리 분류 | string |
| type | 라벨링 타입 | string |
| images | 이미지 | object |
| width | 넓이 | string |
| dataCaptured | 촬영날짜 | string |
| height | 높이 | string |
| dataInfo | 데이터 정보 | string |
| 정상 | 질병없음 | string |
| RDS | 호흡곤란증후군 | string |
| RT Grade | 오른쪽 폐 정도 | string |
| LT Grade | 왼쪽 폐 정도 | string |
| TTN | 일과성 호흡증후군 | string |
| BPD | 기관지폐 | string |
| Atelectasis | 무기폐 | string |
| Air leak syndrome | 공기 누출 증후군 | string |
| Tip 위치 | Tube 상단 끝 | string |
| Tube 위치 | 척추,심장 | string |
| 삽입위치 | 구강,제대,말초혈관 | string |
| Tip위치(Vertebra) | 척추기준 | string |
| Tip위치(심장음영) | 심장음영기준 | string |
| Catheterization Level | 카테터 상하 위치 | string |
| 방향성 | 카테터 위치 방향성 | string |
| NEC | 괴사성 장염 | string |
| Pneumoperitoneum | 기복증 | string |
| Pneumatosis intestinalis | 창자벽 공기낭증 | string |
| Portal vein gas | 간문맥 내 가스 | string |
| Clinic_info | 임상 정보 | object |
| Type | 질환타입 | string |
| Pid | 환자번호 | string |
| Date | 영상촬영날짜 | string |
| (YYYY-MM-DD) | ||
| GA_week | 재태주수 | number |
| GA_day | 재태주수일 | number |
| BWt | 출생체중 | number |
| sex | 성별 | string |
| Delivery_mode | 분만정보 | string |
| PMA_week_at_exam_data | 촬영일기준 재태주수 | number |
| PMA_day_at_exam_data | 촬영일기준 재태주수일 | number |
| age_at_exam | 촬영일기준 나이 | string |
| weight_at_exam_data | 촬영일기준 체중 | number |
| BWt_group | 출생체중 그룹코드 | string |
| GA_group | 재태주수 그룹코드 | string |
어노테이션 포맷
| 구 분 | 속성명 | 타입 | 필수여부 | 설명 | 비고 | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | annotation | array | Y | 어노테이션정보 | |||||||
| 1-1 | object | ||||||||||
| 1-1-1 | m_isClosed | boolean | Y | 폴리곤 개방여부 | |||||||
| 1-1-2 | m_area | number | 면적 | 5414.5686 | |||||||
| 1-1-3 | m_points | array | Y | 객체좌표 | |||||||
| 1-1-3-1 | object | Y | |||||||||
| 1-1-3-1-1 | x | number | Y | x좌표 | |||||||
| 1-1-3-1 -2 | y | number | Y | y좌표 | |||||||
| 1-1-4 | label | string | Y | 카테고리 분류 | PICC | ||||||
| 1-1-5 | type | string | Y | 라벨링 타입 | curvPoly | ||||||
| 2 | images | object | Y | 이미지 | |||||||
| 2-1 | width | string | Y | 넓이 | 2000 | ||||||
| 2-2 | dataCaptured | string | Y | 촬영날짜 | 18000101 | ||||||
| 2-3 | height | string | Y | 높이 | 2510 | ||||||
| 3 | dataInfo | string | 데이터 정보 | ||||||||
| 3-1 | object | ||||||||||
| 3-1-1 | 정상 | string | Y | 질병없음 | 1 | ||||||
| 3-1-2 | RDS | string | Y | 호흡곤란증후군 | 1 | ||||||
| 3-1-3 | RT Grade | string | Y | 오른쪽 폐 정도 | 1 | ||||||
| 3-1-4 | LT Grade | string | Y | 왼쪽 폐 정도 | 1 | ||||||
| 3-1-5 | TTN | string | Y | 일과성 호흡증후군 | 1 | ||||||
| 3-1-6 | BPD | string | Y | 기관지폐 | 1 | ||||||
| 3-1-7 | Atelectasis | string | Y | 무기폐 | 1 | ||||||
| 3-1-8 | Air leak | string | Y | 공기 누출 증후군 | 1 | ||||||
| syndrome | |||||||||||
| 3-1-9 | Tip 위치 | string | Y | Tube 상단 끝 | 3 | ||||||
| 3-1-10 | Tube 위치 | string | Y | 척추,심장 | 1 | ||||||
| 3-1-11 | 삽입위치 | string | Y | 구강,제대,말초혈관 | 1 | ||||||
| 3-1-12 | Tip위치(Vertebra) | string | Y | 척추기준 | 1 | ||||||
| 3-1-13 | Tip위치(심장음영) | string | Y | 심장음영기준 | 1 | ||||||
| 3-1-14 | Catheterization | string | Y | 카테터 상하 위치 | 1 | ||||||
| Level | |||||||||||
| 3-1-15 | 방향성 | string | Y | 카테터 위치 방향성 | 1 | ||||||
| 3-1-16 | NEC | string | Y | 괴사성 장염 | 1 | ||||||
| 3-1-17 | Pneumoperitoneum | string | Y | 기복증 | 1 | ||||||
| 3-1-18 | Pneumatosis intestinalis | string | Y | 창자벽 공기낭증 | 1 | ||||||
| 3-1-19 | Portal vein gas | string | Y | 간문맥 내 가스 | 1 | ||||||
| 4 | Clinic_info | object | Y | 임상 정보 | |||||||
| 4-1 | Type | string | Y | 질환타입 | PICC | ||||||
| 4-2 | Pid | string | Y | 환자번호 | 1 | ||||||
| 4-3 | Date | string | 영상촬영날짜 | 44378 | |||||||
| (YYYY-MM-DD) | |||||||||||
| 4-4 | GA_week | number | Y | 재태주수 | 28 | ||||||
| 4-5 | GA_day | number | Y | 재태주수일 | 5 | ||||||
| 4-6 | BWt | number | Y | 출생체중 | 880 | ||||||
| 4-7 | sex | string | 성별 | M | |||||||
| 4-8 | Delivery_mode | string | 분만정보 | C | |||||||
| 4-9 | PMA_week_at_exam_data | number | 촬영일기준 재태주수 | 28 | |||||||
| 4-10 | PMA_day_at_exam_data | number | 촬영일기준 재태주수일 | 5 | |||||||
| 4-11 | age_at_exam | string | 촬영일기준 나이 | 1 | |||||||
| 4-12 | weight_at_exam_data | number | 촬영일기준 체중 | 880 | |||||||
| 4-13 | BWt_group | string | Y | 출생체중 그룹코드 | BW01 | ||||||
| 4-14 | GA_group | string | Y | 재태주수 그룹코드 | GA01 | ||||||
데이터 포맷
| 신생아 카테터 이미지 데이터 |
|---|
| 원천 데이터 : DICOM |
| 라벨링 데이터 : JSON[PNG, DICOM] |
| 신생아 카테터 임상 의료 데이터 |
|---|
| 메타 데이터 : TXT |
| 라벨링 데이터 : JSON |
실제예시

| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 최병민 | 031-412-5579 | cbmin@korea.ac.kr | 연구원 |
| 기관명 | 담당업무 |
|---|---|
| 가톨릭대학교 산학협력단 | 데이터 수집 |
| 계명대학교 산학협력단 | 데이터 수집 |
| 삼성서울병원 | 데이터 수집 |
| 아주대학교 산학협력단 | 데이터 수집 |
| 연세대학교 산학협력단 | 데이터 수집 |
| 전북대학교병원 | 데이터 수집 |
| 차의과대학교 분당차병원 | 데이터 수집 |
| 충북대학교병원 | 데이터 수집 |
| 미소정보기술 | 데이터셋 정제, 비식별화 도구, 저작도구 |
| 코어라인소프트 | 학습모델 구현 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 김형진 | 031-412-5579 | unk1004@hanmail.net |