| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-20 | 데이터 최종 개방 | |
| 1.0 | 2023-04-30 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-01-26 | 산출물 최종 공개 | |
| 2023-07-28 | 데이터셋 변경 | 담당자, 연락처 수정 |
음성 데이터를 이용하여 정상, 파킨슨병 환자 예측 AI 모델 제시
임상 및 PET의 완전한 데이터셋(complete data set)을 근거로 한 파킨슨병과 비전형 파킨슨증 질환의 진단을 AI로 학습을 시켜서, 불완전한 데이터셋(incomplete data set)을 가진 환자의 진단을 AI 알고리듬을 통해 추정하는 진단법을 수립하는 것이 궁극적인 목적임.
| 데이터 영역 | 헬스케어 | 데이터 유형 | 오디오 , 텍스트 |
|---|---|---|---|
| 데이터 형식 | WAV, CSV | 데이터 출처 | 자체 수집 |
| 라벨링 유형 | 분류태그, 전사 텍스트 | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | 의료서비스 | 데이터 구축년도/ 데이터 구축량 |
2022년/58,734 |
데이터 구축 규모
| 구분 | 목표 환자수 | 음성 | 메타 데이터 | |
|---|---|---|---|---|
| (명) | 데이터 | |||
| 파킨슨병(PD) | 후향적 | 200 | 200 | 200 |
| 전향적 | 623 | 623 | 623 | |
| 본태성 진전(ET) | 후향적 | - | - | - |
| 전향적 | 297 | 297 | 297 | |
| 다계통위축(MSA) | 후향적 | - | - | - |
| 전향적 | 170 | 170 | 170 | |
| 진행성 핵상 마비(PSP) / 피질기저핵변성 CBD / (+FTD/AD) | 후향적 | - | - | - |
| 전향적 | 150 | 150 | 150 | |
| 정상 | 385 | 385 | 385 | |
| 합계 | 1,825 | 1,825 | 1,825 | |
데이터 분포
| 다양성 (통계) |
연령대별 분포 | 구성비 중첩률 |
분포 확인
|
해당 항목은 내재적 특성이며 미리 계획할 수 없으므로 분포 확인을 목표로 설정 | ||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 다양성 (요건) |
남녀 성비 | 구성비 중첩률 |
|
음성 특성과 관련하여 성별을 구분 **내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 성별, 거주지, 연령 등이 다양하게 분포되어 있고 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음 |
||||||||||||||||||
| 정상/병적음성 분포 | 구성비 중첩률 |
|
수행계획서 데이터 구축 가이드라인 **내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음 |
|||||||||||||||||||
모델학습
- ResNet101-V2 모델은 학습을 위해 음성 데이터(.wav) 파일의 형태를 이미지 형태로 변환해야 한다. 기본 학습 이미지 크기는 (224x224x3) 형태를 가지며, 분류층을 조정하여 최종 결과를 다른 방향으로 가지고 갈 수 있다. 질병의 유무만을 판단하는 이진 분류 또는 질환별로 유사도를 측정하는 다중 분류를 할 수 있다.
서비스 활용 시나리오
⦁구축한 모델은 음성 질환 평가 및 분석 서비스에 활용할 수 있음.
⦁음성 질환 평가 및 분석 서비스 활용
- 데이터 수요자가 음성 질환 분석 평가 서비스 제공회사라면 데이터 자체를 평가 지표 데이터 및 비교군 데이터로 사용하여 해당 질환의 중증도에 대해 비교하여 진행도를 파악할 수 있고, 학습한 AI 모델을 사용하여 질병의 유무에 대해 조기 발견하여, 선제 대응으로 질병의 경과를 최대한 늦출 수 있도록 빠른 치료를 시작할 수 있다.
| 학습 알고리즘 | Resnet101v2 파킨슨 환자는 발성 시작에 어려움을 겪는다는 개념을 기반으로, 녹음파일의 1~2초 부분을 mel-Spectrogram 알고리즘으로 음성데이터를 이미지화 하여 학습 데이터로 변환한다. ImageNet으로 사전 학습된 모델의 기존 분류층을 제거한 후 학습 데이터에 맞는 분류 층을 추가한다. |
|---|---|
| 학습 조건 | mel-Spectrogram 매개변수 n_mels = 256 모델 매개변수 조정 epoch = 32 optimizer = Adam learning rate = 1e-5 |
| 파일 형식 | • 학습 데이터셋: PNG |
| • 평가 데이터셋: PNG
|
|
| 전체 구축 데이터 대비 모델에 적용되는 비율 |
AI모델 사용 이미지 비율 - 전체 음성데이터 35,841개중 변환된 음성 29,267개 약 81.5% 사용 |
데이터 포멧
| 데이터 종류 | 음성 데이터 | 메타 데이터 | 라벨링 데이터 |
|---|---|---|---|
| 데이터 포맷 | wav | csv | json |
데이터 구성
- 기관코드
| 기관명 | 파일명 구조 |
|---|---|
| 서울대학교 병원 | H01 |
| 분당서울대학교 병원 | H02 |
| 경북대학교 산학협력단 | H03 |
- 데이터 코드(질병 구분별)
| 데이터 종류 | 데이터 코드 |
|---|---|
| NC | 정상 |
| PD | 파킨슨병 |
| ET | 본태성진전 |
| MSA | 다발성 신경계 위축 |
| TP | 타우파킨슨 |
어노테이션 포맷
- 18개 질문
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | metaData | Y | 메타 데이터 정보 | ||||
| 1-1 | Patient_No | string | Y | 식별 ID | |||
| 1-2 | ICF_Date | string | Y | 동의날짜 | |||
| 1-3 | Inclusion | string | Y | 선정기준 | |||
| 1-4 | Exclusion | string | Y | 제외기준 | |||
| 1-5 | Sex | string | Y | 성별 | M, F | ||
| 1-6 | Date_of_Birth | string | Y | 생년월일 | |||
| 1-7 | Age | string | Y | 연령 | |||
| 1-8 | Genetic_Dx | string | Y | 질병 코드 | NC, PD, ET, MSA, TP | NC:정상인 | |
| PD:파킨슨 ET:본태성진전 | |||||||
| MSA:다발성 신경계 위축 | |||||||
| TP:타우파킨슨 | |||||||
| 1-9 | Symtom_onset | string | N | 발병년도 | |||
| 1-10 | Severity_class | string | N | 중증도 | |||
| 1-11 | Underlying_disease_HTN | string | Y | 동반질환_고혈압 | |||
| 1-12 | Underlying_disease_DM | string | Y | 동반질환_당뇨 | |||
| 1-13 | Underlying_disease_Dyslipidemia | string | Y | 동반질환_고지혈증 | |||
| 1-14 | MRI_YN | string | Y | MRI 여부 | |||
| 1-15 | MRI_Date | string | N | MRI 날짜 | |||
| 1-16 | MRI_Conclusion | string | N | MRI 결과 | |||
| 1-17 | FDG_PET_YN | string | Y | FDG_PET 여부 | |||
| 1-18 | FDG_PET_Date | string | N | FDG_PET 날짜 | |||
| 1-19 | FDG_PET_Conclusion | string | N | FDG_PET 결과 | |||
| 1-20 | FP_CIT_PET_YN | string | Y | FP_CIT_PET 여부 | |||
| 1-21 | FP_CIT_PET_Date | string | N | FP_CIT_PET 날짜 | |||
| 1-22 | FP_CIT_PET_Conclusion | string | N | FP_CIT_PET 결과 | |||
| 2 | annotation | Y | 원천데이터별 라벨링정보 | ||||
| 2-1 | category | string | Y | 라벨링 카테고리 | A1~18 | 질문 카테고리 | |
| 2-2 | startTime | number | Y | 음성 발화 시작 시간 | 0~100 | ||
| 2-3 | endTime | number | Y | 음성 발화 종료 시간 | 0~300 | ||
| 2-4 | labelText | string | Y | 음성 발화 입력 텍스트 |
|
||
- 18개 질문(14-18번 질문 반복녹음)
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | metaData | Y | 메타 데이터 정보 | ||||
| 1-1 | Patient_No | string | Y | 식별 ID | |||
| 1-2 | ICF_Date | string | Y | ||||
| 1-3 | Inclusion | string | Y | ||||
| 1-4 | Exclusion | string | Y | ||||
| 1-5 | Sex | string | Y | 성별 | M, F | ||
| 1-6 | Date_of_Birth | string | Y | 생년월일 | |||
| 1-7 | Age | string | Y | 연령 | |||
| 1-8 | Genetic_Dx | string | Y | 질병 코드 | NC, PD, ET, MSA, TP | NC:정상인 | |
| PD:파킨슨 ET:본태성진전 | |||||||
| MSA:다발성 신경계 위축 | |||||||
| TP:타우파킨슨 | |||||||
| 1-9 | Symtom_onset | string | N | ||||
| 1-10 | Severity_class | string | N | ||||
| 1-11 | Underlying_disease_HTN | string | Y | ||||
| 1-12 | Underlying_disease_DM | string | Y | ||||
| 1-13 | Underlying_disease_Dyslipidemia | string | Y | ||||
| 1-14 | MRI_YN | string | Y | ||||
| 1-15 | MRI_Date | string | N | ||||
| 1-16 | MRI_Conclusion | string | N | ||||
| 1-17 | FDG_PET_YN | string | Y | ||||
| 1-18 | FDG_PET_Date | string | N | ||||
| 1-19 | FDG_PET_Conclusion | string | N | ||||
| 1-20 | FP_CIT_PET_YN | string | Y | ||||
| 1-21 | FP_CIT_PET_Date | string | N | ||||
| 1-22 | FP_CIT_PET_Conclusion | string | N | ||||
| 2 | annotation | Y | 원천데이터별 라벨링정보 | ||||
| 2-1 | category | string | Y | 라벨링 카테고리 | A1~18 | 질문 카테고리 | |
| 2-2 | startTime | number | Y | 음성 발화 시작 시간 | 0~100 | ||
| 2-3 | endTime | number | Y | 음성 발화 종료 시간 | 0~300 | ||
| 2-4 | labelText | string | Y | 음성 발화 입력 텍스트 |
|
||
- 25개 질문
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | metaData | Y | 메타 데이터 정보 | ||||
| 1-1 | Patient_No | string | Y | 식별 ID | |||
| 1-2 | ICF_Date | string | Y | ||||
| 1-3 | Inclusion | string | Y | ||||
| 1-4 | Exclusion | string | Y | ||||
| 1-5 | Sex | string | Y | 성별 | M, F | ||
| 1-6 | Date_of_Birth | string | Y | 생년월일 | |||
| 1-7 | Age | string | Y | 연령 | |||
| 1-8 | Genetic_Dx | string | Y | 질병 코드 | NC, PD, ET, MSA, TP | NC:정상인 | |
| PD:파킨슨 ET:본태성진전 | |||||||
| MSA:다발성 신경계 위축 | |||||||
| TP:타우파킨슨 | |||||||
| 1-9 | Symtom_onset | string | N | ||||
| 1-10 | Severity_class | string | N | ||||
| 1-11 | Underlying_disease_HTN | string | Y | ||||
| 1-12 | Underlying_disease_DM | string | Y | ||||
| 1-13 | Underlying_disease_Dyslipidemia | string | Y | ||||
| 1-14 | MRI_YN | string | Y | ||||
| 1-15 | MRI_Date | string | N | ||||
| 1-16 | MRI_Conclusion | string | N | ||||
| 1-17 | FDG_PET_YN | string | Y | ||||
| 1-18 | FDG_PET_Date | string | N | ||||
| 1-19 | FDG_PET_Conclusion | string | N | ||||
| 1-20 | FP_CIT_PET_YN | string | Y | ||||
| 1-21 | FP_CIT_PET_Date | string | N | ||||
| 1-22 | FP_CIT_PET_Conclusion | string | N | ||||
| 2 | annotation | Y | 원천데이터별 라벨링정보 | ||||
| 2-1 | category | string | Y | 라벨링 카테고리 | A1~25 | 질문 카테고리 | |
| 2-2 | startTime | number | Y | 음성 발화 시작 시간 | 0~100 | ||
| 2-3 | endTime | number | Y | 음성 발화 종료 시간 | 0~300 | ||
| 2-4 | labelText | string | Y | 음성 발화 입력 텍스트 |
|
||
- 후향적데이터
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | metaData | Y | 메타 데이터 정보 | ||||
| 1-1 | Patient_No | string | Y | 식별 ID | |||
| 1-2 | ICF_Date | string | Y | ||||
| 1-3 | Inclusion | string | Y | ||||
| 1-4 | Exclusion | string | Y | ||||
| 1-5 | Sex | string | Y | 성별 | M, F | ||
| 1-6 | Date_of_Birth | string | Y | 생년월일 | |||
| 1-7 | Age | string | Y | 연령 | |||
| 1-8 | Genetic_Dx | string | Y | 질병 코드 | PD | ||
| 1-9 | Symtom_onset | string | Y | ||||
| 2 | annotation | Y | 원천데이터별 라벨링정보 | ||||
| 2-1 | category | string | Y | 라벨링 카테고리 | A26~28 | 질문 카테고리 | |
| 2-2 | startTime | number | Y | 음성 발화 시작 시간 | 0~100 | ||
| 2-3 | endTime | number | Y | 음성 발화 종료 시간 | 0~300 | ||
| 2-4 | labelText | string | Y | 음성 발화 입력 텍스트 |
|
||
실제예시
{
"metaData": {
"Patient_No": "3-001",
"ICF_Date": "2022-07-04",
"Inclusion": "Y",
"Exclusion": "Y",
"Sex": "F",
"Date_of_Birth": "1983",
"Age": "38",
"Genetic_Dx": "NC",
"Symtom_onset": "N",
"Severity_class": "N",
"Underlying_disease_HTN": "N",
"Underlying_disease_DM": "N",
"Underlying_disease_Dyslipidemia": "Y",
"MRI_YN": "N",
"MRI_Date": "",
"MRI_Conclusion": "",
"FDG_PET_YN": "N",
"FDG_PET_Date": "",
"FDG_PET_Conclusion": "",
"FP_CIT_PET_YN": "N",
"FP_CIT_PET_Date": "",
"FP_CIT_PET_Conclusion": "",
},
"annotation": [
{
"category": "A18",
"startTime": 0.84,
"endTime": 6.96,
"labelText": "무엇보다도 산에 오를 땐 더욱더 그 빼어난 아름다움이 느껴진다"
}
]
}
| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 김광기 | 032-458-2770 | kimkg@gachon.ac.kr | 데이터 총괄 및 가공 |
| 기관명 | 담당업무 |
|---|---|
| 서울대학교 병원 | 데이터 수집 및 검수 |
| 분당서울대학교 병원 | 데이터 수집 및 검수 |
| 경북대학교 산학협력단 | 데이터 수집 및 검수 |
| ㈜미소정보기술 | 데이터 정제 및 저작도구 개발 |
| ㈜이피아이랩 | AI모델 개발 |
| 인포뱅크(주) | 데이터 품질 관리 |
| 울산대학교 산학협력단 | 데이터 품질 관리 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 김광기 | 032-4458-2770 | kimkg@gachon.ac.kr |