| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-29 | 데이터 최종 개방 | |
| 1.0 | 2023-05-04 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-01-10 | 산출물 최종 공개 |
폐질환 진단에 도움이 되는 폐기능, 폐음 데이터 및 이에 대한 라벨링 데이터
자가 폐기능 검사 기기를 이용하여 일상 생활에서의 폐기능을 평가할 수 있는 데이터를 구축하고 이를 바탕으로 만성폐질환을 예측할 수 있는 모델 개발
| 데이터 영역 | 헬스케어 | 데이터 유형 | 센서 |
|---|---|---|---|
| 데이터 형식 | EDF | 데이터 출처 | 의료기관 |
| 라벨링 유형 | 내용요약(자연어) | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | 만성 페질환 유무 예측 서비스 | 데이터 구축년도/ 데이터 구축량 |
2022년/5,878 |
1. 데이터 구축 규모
- 자가 폐기능 검사 결과 데이터 4,502건과 동일한 환자에서 녹음된 폐음 데이터 1,376건이며, 환자의 임상 정보 데이터, 폐기능 검사를 실시한 날짜에 맞는 날씨 및 대기오염 데이터를 포함하는 어노테이션 파일을 포함함.
- 원천 데이터 : 전향적으로 수집된 자가 폐기능 검사 결과 및 폐음 데이터이며, 수집된 폐기능 데이터에서 Time, Flow, Volume 항목을 추출하고 EDF 표준 포맷으로 통합함. 수집된 폐음 데이터에서는 심장 소리와 폐음을 구분하고 폐음만 저장하여, EDF 표준 포맷으로 통합함. 전체 EDF 파일 개수는 폐기능 4,502건과 폐음 1,376건이며 용량은 총 0.6GB임.
- 라벨링 데이터 : 환자의 임상 정보 데이터, 폐기능 검사를 실시한 날짜에 맞는 날씨 및 대기오염 데이터에 대한 어노테이션 파일로, 각 자가 폐기능 검사 데이터 별로 1개의 JSON 파일이 포함됨. 전체 JSON 파일의 개수는 각각 폐기능 4,502건과 폐음 1,376건임.
1) 폐기능
| 폐질환 유무 | 의료기관 | 건수 |
|---|---|---|
| Normal | A | 12 |
| B | 47 | |
| C | 102 | |
| D | 73 | |
| E | 342 | |
| ASTHMA | A | 385 |
| B | 223 | |
| C | 310 | |
| D | 539 | |
| E | - | |
| COPD | A | 662 |
| B | 499 | |
| C | 484 | |
| D | 196 | |
| E | 75 | |
| IPF | A | 189 |
| B | 166 | |
| C | 108 | |
| D | 90 | |
| E | - | |
| 합계 | 4,502 | |
| 폐질환 유무 | 의료기관 | 건수 |
|---|---|---|
| Normal | A | 8 |
| B | 8 | |
| C | 32 | |
| D | 28 | |
| E | 208 | |
| ASTHMA | A | 136 |
| B | 40 | |
| C | 64 | |
| D | 124 | |
| E | - | |
| COPD | A | 244 |
| B | 100 | |
| C | 112 | |
| D | 56 | |
| E | 24 | |
| IPF | A | 76 |
| B | 56 | |
| C | 36 | |
| D | 24 | |
| E | - | |
| 합계 | 1,376 | |
2. 데이터 분포
1) 폐기능
| 항목 | 구분 | 비율 |
|---|---|---|
| 진단별 환자수 분포 | ASTHMA | 32.36% |
| COPD | 42.56% | |
| IPF | 12.28% | |
| NORMAL | 12.79% | |
| 천식 및 정상 남녀 성비 분포 | 천식 (남) | 29.81% |
| 천식 (여) | 41.86% | |
| 정상 (남) | 9.84% | |
| 정상 (여) | 18.49% | |
| 진단별 연령대 분포 | ASTHMA | 24.06% |
| (66세 미만) | ||
| ASTHMA | 8.31% | |
| (66세 이상) | ||
| COPD | 15.42% | |
| (66세 미만) | ||
| COPD | 27.14% | |
| (66세 이상) | ||
| IPF | 5.15% | |
| (66세 미만) | ||
| IPF | 7.13% | |
| (66세 이상) | ||
| NORMAL | 8.00% | |
| (66세 미만) | ||
| NORMAL | 4.80% | |
| (66세 이상) |
| 항목 | 구분 | 비율 |
|---|---|---|
| 진단별 환자수 분포 | ASTHMA | 26.45% |
| COPD | 38.95% | |
| IPF | 13.95% | |
| NORMAL | 20.40% | |
| 천식 및 정상 남녀 성비 분포 | 천식 (남) | 22.76% |
| 천식 (여) | 51.22% | |
| 정상 (남) | 11.38% | |
| 정상 (여) | 14.63% | |
| 진단별 연령대 분포 | ASTHMA | 15.41% |
| (66세 미만) | ||
| ASTHMA | 11.05% | |
| (66세 이상) | ||
| COPD | 12.79% | |
| (66세 미만) | ||
| COPD | 26.16% | |
| (66세 이상) | ||
| IPF | 3.20% | |
| (66세 미만) | ||
| IPF | 10.76% | |
| (66세 이상) | ||
| NORMAL | 9.59% | |
| (66세 미만) | ||
| NORMAL | 11.05% | |
| (66세 이상) |
1. 활용 모델
- 폐기능 검사 데이터를 기반으로 만성 폐질환 유무 예측

2. 서비스 활용 시나리오
- 예측 모델을 활용하여 자가 검사를 통해 폐기능 질환 유무와 이에 따른 사용자의 위험 점수 및 위험군 상위 수준을 파악하여 질병에 조기 대응할 수 있는 정보를 제공


1. 대표 도면


2. 라벨링 데이터 구성
1) 폐기능 라벨링 데이터
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | |
|---|---|---|---|---|---|---|
| 1 | Case_Info | Object | Y | 데이터셋정보 | ||
| 1-1 | Case_Info.case_number | String | Y | 데이터셋명 | ||
| 1-2 | Case_Info.patient_id | String | Y | 환자 ID | ||
| 1-3 | Case_Info.gender | String | Y | 환자 성별 | M, F | |
| 1-4 | Case_Info.age | String | Y | 환자 나이 | ||
| 1-5 | Case_Info.height | Number | Y | 환자 키 | ||
| 1-6 | Case_Info.weight | Number | Y | 환자 몸무게 | ||
| 1-7 | Case_Info.bmi | Number | Y | 환자 bmi | ||
| 1-8 | Case_Info.date | String | Y | 폐기능 검사일 | ||
| 1-9 | Case_Info.time | String | Y | 폐기능 검사시각 | ||
| 1-10 | Case_Info.smoking | String | Y | 환자 흡연이력 | Never, | |
| Ex, | ||||||
| Current | ||||||
| 1-11 | Case_Info.py | Number | Y | 환자 pack year | ||
| 1-12 | Case_Info.residence | String | Y | 거주지 | ||
| 1-13 | Case_Info.diagnosis | String | Y | 폐기능 진단명 | NORMAL, ASTHMA, | |
| COPD, | ||||||
| IPF | ||||||
| 2 | Air_Pollution | Object | Y | 대기오염정보 | ||
| 2-1 | Air_Pollution.so2_value | Number | Y | 아황산가스 정보 | ||
| 2-2 | Air_Pollution.co_value | Number | Y | 일산화탄소 | ||
| 2-3 | Air_Pollution.pm10_value | Number | Y | 미세먼지정보 | ||
| 2-4 | Air_Pollution.pm25_value | Number | Y | 초미세먼지정보 | ||
| 2-5 | Air_Pollution.no2_value | Number | Y | 이산화질소 정보 | ||
| 2-6 | Air_Pollution.o3_value | Number | Y | 오존 정보 | ||
| 3 | PFT_Result | Object | Y | 폐기능 검사 데이터 정보 | ||
| 2-6 | PFT_Result.FVC_L | Number | Y | FVC 정보 | ||
| 2-7 | PFT_Result.FVC_P | Number | Y | FVC 정보 | ||
| 2-8 | PFT_Result.FEV1_L | Number | Y | FEV 정보 | ||
| 2-9 | PFT_Result.FEV1_P | Number | Y | FEV 정보 | ||
| 2-10 | PFT_Result.FEV1_FVC | Number | Y | FEV / FVC 정보 | ||
| 2-11 | PFT_Result.PEF | Number | Y | PEF 정보 | ||
| 2-12 | PFT_Result.FEF25_75 | Number | Y | FEF25-75 정보 | ||
2) 폐음 메타데이터
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | |
|---|---|---|---|---|---|---|
| 1 | Case_Info | Object | Y | 데이터셋정보 | ||
| 1-1 | Case_Info.case_number | String | Y | 데이터셋명 | ||
| 1-2 | Case_Info.patient_id | String | Y | 환자 ID | ||
| 1-3 | Case_Info.gender | String | Y | 환자 성별 | M, F | |
| 1-4 | Case_Info.age | String | Y | 환자 나이 | ||
| 1-5 | Case_Info.height | Number | Y | 환자 키 | ||
| 1-6 | Case_Info.weight | Number | Y | 환자 몸무게 | ||
| 1-7 | Case_Info.bmi | Number | Y | 환자 bmi | ||
| 1-8 | Case_Info.date | String | Y | 폐음 녹음일 | ||
| 1-9 | Case_Info.time | String | Y | 폐음 녹음시각 | ||
| 1-10 | Case_Info.smoking | String | Y | 환자 흡연이력 | Never, | |
| Ex, | ||||||
| Current | ||||||
| 1-11 | Case_Info.py | Number | Y | 환자 pack year | ||
| 1-12 | Case_Info.residence | String | N | 거주지 | ||
| 1-13 | Case_Info.diagnosis | String | Y | 폐기능 진단명 | NORMAL, ASTHMA, | |
| COPD, | ||||||
| IPF | ||||||
| 2 | Lungsound_Result | Object | Y | 폐음 검수 정보 | ||
| 2-1 | Lungsound_Result.good | Array | Y | 품질이 좋은 폐음 원천 파일명 목록 | ||
| 2-2 | Lungsound_Result.best | String | Y | 이 환자를 대표할 수 있는 제일 좋은 폐음 원천 파일명 | ||
| 2-3 | Lungsound_Result.description | String | Y | 녹음 결과에 대한 | ||
| Description | ||||||
3. 라벨링 데이터 예시
(같은 환자에서 측정한 폐기능과 폐음데이터는 라벨데이터도 전반적으로 같음. 차이점은 폐음데이터에는 대기오염데이터가 포함되지 않음.)

| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 신현우 | 02-740-8285 | charlie@snu.ac.kr | 자가 검사 데이터 구축 사업 총괄 |
| 기관명 | 담당업무 |
|---|---|
| 서울대학교병원 | 데이터 수집 |
| 분당서울대학교병원 | 데이터 수집 |
| 보라매병원 | 데이터 수집 |
| 강원대학교병원 | 데이터 수집 |
| 부평세림병원 | 데이터 수집 |
| 알투소프트 | 데이터 정제 및 가공 |
| 유비즈정보기술(주) | 데이터 검수 |
| 마인즈앤컴퍼니 | AI 모델 개발 |
| 오엠인터랙티브 | 시범서비스 개발 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 신현우 | 02-740-8285 | charlie@snu.ac.kr |