공공 의료데이터 상세

썸네일

파킨슨병 및 관련 질환 진단 음성데이터

##파킨슨병
음성 데이터를 이용하여 정상, 파킨슨병 환자 예측 AI 모델 제시
분야
헬스케어
유형
오디오,텍스트
생성 방식
안심존(온라인)
  • 구축년도 : 2022
  • 버전 : 1.1
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.1 2023-12-20 데이터 최종 개방
1.0 2023-04-30 데이터 개방 Beta Version

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2024-01-26 산출물 최종 공개
2023-07-28 데이터셋 변경 담당자, 연락처 수정

소개

음성 데이터를 이용하여 정상, 파킨슨병 환자 예측 AI 모델 제시

구축목적

임상 및 PET의 완전한 데이터셋(complete data set)을 근거로 한 파킨슨병과 비전형 파킨슨증 질환의 진단을 AI로 학습을 시켜서, 불완전한 데이터셋(incomplete data set)을 가진 환자의 진단을 AI 알고리듬을 통해 추정하는 진단법을 수립하는 것이 궁극적인 목적임.

 데이터 구축 규모

데이터 구축 규모
구분 목표 환자수 음성 메타 데이터
(명) 데이터
파킨슨병(PD) 후향적 200 200 200
전향적 623 623 623
본태성 진전(ET) 후향적 - - -
전향적 297 297 297
다계통위축(MSA) 후향적 - - -
전향적 170 170 170
진행성 핵상 마비(PSP) / 피질기저핵변성 CBD / (+FTD/AD) 후향적 - - -
전향적 150 150 150
정상 385 385 385
합계 1,825 1,825 1,825

 


 데이터 분포

데이터 분포
다양
(통계)
연령대별 분포 구성비
중첩률

분포 확인

데이터 분포
연령대
10대
20대
30대
40대
50대
60대
70대
80대

 

 

 

Ÿ 해당 항목은 내재적 특성이며 미리 계획할 수 없으므로 분포 확인을 목표로 설정
다양성
(요건)
남녀 성비 구성비
중첩률
구성비 중첩률
구성비 중첩률 50%

 

목표 구성비
목표 구성비
남자 47.81%
여자 52.19%
Ÿ 음성 특성과 관련하여 성별을 구분

**내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 성별, 거주지, 연령 등이 다양하게 분포되어 있고 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음
정상/병적음성 분포 구성비
중첩률
구성비 중첩률
구성비 중첩률 50%

 

목표 구성비
목표 구성비
정상음성(NC) 21.10%
병적음성 파킨슨병(PD) 45.10%
본태성진전(ET) 16.30%
다발성 신경계 위축(MSA) 9.30%
타우파킨슨(TP) 8.20%
Ÿ 수행계획서 데이터 구축 가이드라인
**내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음

모델학습
- ResNet101-V2 모델은 학습을 위해 음성 데이터(.wav) 파일의 형태를 이미지 형태로 변환해야 한다. 기본 학습 이미지 크기는 (224x224x3) 형태를 가지며, 분류층을 조정하여 최종 결과를 다른 방향으로 가지고 갈 수 있다. 질병의 유무만을 판단하는 이진 분류 또는 질환별로 유사도를 측정하는 다중 분류를 할 수 있다.

서비스 활용 시나리오
⦁구축한 모델은 음성 질환 평가 및 분석 서비스에 활용할 수 있음.
⦁음성 질환 평가 및 분석 서비스 활용
- 데이터 수요자가 음성 질환 분석 평가 서비스 제공회사라면 데이터 자체를 평가 지표 데이터 및 비교군 데이터로 사용하여 해당 질환의 중증도에 대해 비교하여 진행도를 파악할 수 있고, 학습한 AI 모델을 사용하여 질병의 유무에 대해 조기 발견하여, 선제 대응으로 질병의 경과를 최대한 늦출 수 있도록 빠른 치료를 시작할 수 있다.
 

학습 알고리즘
학습 알고리즘 Resnet101v2

파킨슨 환자는 발성 시작에 어려움을 겪는다는 개념을 기반으로, 녹음파일의 1~2초 부분을 mel-Spectrogram 알고리즘으로 음성데이터를 이미지화 하여 학습 데이터로 변환한다.
ImageNet으로 사전 학습된 모델의 기존 분류층을 제거한 후 학습 데이터에 맞는 분류 층을 추가한다.
학습 조건 mel-Spectrogram 매개변수
n_mels = 256

모델 매개변수 조정
epoch = 32
optimizer = Adam
learning rate = 1e-5
파일 형식 • 학습 데이터셋: PNG
• 평가 데이터셋: PNG
 
전체 구축 데이터 대비
모델에 적용되는 비율
AI모델 사용 이미지 비율
- 전체 음성데이터 35,841개중 변환된 음성 29,267개 약 81.5% 사용

 데이터 포멧

데이터 포멧
데이터 종류 음성 데이터 메타 데이터 라벨링 데이터
데이터 포맷 wav csv json

 


 데이터 구성
- 기관코드

기관코드
기관명 파일명 구조
서울대학교 병원 H01
분당서울대학교 병원 H02
경북대학교 산학협력단 H03

 

- 데이터 코드(질병 구분별)

 
 
 
데이터 종류
데이터 종류 데이터 코드
NC 정상
PD 파킨슨병
ET 본태성진전
MSA 다발성 신경계 위축
TP 타우파킨슨

 

 어노테이션 포맷
- 18개 질문

 
어노테이션 포맷
구분 속성명 타입 필수여부 설명 범위 비고
1 metaData   Y 메타 데이터 정보    
  1-1 Patient_No string Y 식별 ID    
1-2 ICF_Date string Y 동의날짜    
1-3 Inclusion string Y 선정기준    
1-4 Exclusion string Y 제외기준    
1-5 Sex string Y 성별 M, F  
1-6 Date_of_Birth string Y 생년월일    
1-7 Age string Y 연령    
1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인
PD:파킨슨 ET:본태성진전
MSA:다발성 신경계 위축 
TP:타우파킨슨
 
1-9 Symtom_onset string N 발병년도    
1-10 Severity_class string N 중증도    
1-11 Underlying_disease_HTN string Y 동반질환_고혈압    
1-12 Underlying_disease_DM string Y 동반질환_당뇨    
1-13 Underlying_disease_Dyslipidemia string Y 동반질환_고지혈증    
1-14 MRI_YN string Y MRI 여부    
1-15 MRI_Date string N MRI 날짜    
1-16 MRI_Conclusion string N MRI 결과    
1-17 FDG_PET_YN string Y FDG_PET 여부    
1-18 FDG_PET_Date string N FDG_PET 날짜    
1-19 FDG_PET_Conclusion string N FDG_PET 결과    
1-20 FP_CIT_PET_YN string Y FP_CIT_PET 여부    
1-21 FP_CIT_PET_Date string N FP_CIT_PET 날짜    
1-22 FP_CIT_PET_Conclusion string N FP_CIT_PET 결과    
2 annotation   Y 원천데이터별 라벨링정보    
  2-1 category string Y 라벨링 카테고리 A1~18 질문 카테고리
2-2 startTime number Y 음성 발화 시작 시간 0~100  
2-3 endTime number Y 음성 발화 종료 시간 0~300  
2-4 labelText string Y 음성 발화 입력 텍스트  
 

 

- 18개 질문(14-18번 질문 반복녹음)

18개 질문
구분 속성명 타입 필수여부 설명 범위 비고
1 metaData   Y 메타 데이터 정보    
  1-1 Patient_No string Y 식별 ID    
1-2 ICF_Date string Y      
1-3 Inclusion string Y      
1-4 Exclusion string Y      
1-5 Sex string Y 성별 M, F  
1-6 Date_of_Birth string Y 생년월일    
1-7 Age string Y 연령    
1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인
PD:파킨슨 ET:본태성진전
MSA:다발성 신경계 위축 
TP:타우파킨슨
 
1-9 Symtom_onset string N      
1-10 Severity_class string N      
1-11 Underlying_disease_HTN string Y      
1-12 Underlying_disease_DM string Y      
1-13 Underlying_disease_Dyslipidemia string Y      
1-14 MRI_YN string Y      
1-15 MRI_Date string N      
1-16 MRI_Conclusion string N      
1-17 FDG_PET_YN string Y      
1-18 FDG_PET_Date string N      
1-19 FDG_PET_Conclusion string N      
1-20 FP_CIT_PET_YN string Y      
1-21 FP_CIT_PET_Date string N      
1-22 FP_CIT_PET_Conclusion string N      
2 annotation   Y 원천데이터별 라벨링정보    
  2-1 category string Y 라벨링 카테고리 A1~18 질문 카테고리
2-2 startTime number Y 음성 발화 시작 시간 0~100  
2-3 endTime number Y 음성 발화 종료 시간 0~300  
2-4 labelText string Y 음성 발화 입력 텍스트  
 

 

- 25개 질문

25개 질문
구분 속성명 타입 필수여부 설명 범위 비고
1 metaData   Y 메타 데이터 정보    
  1-1 Patient_No string Y 식별 ID    
1-2 ICF_Date string Y      
1-3 Inclusion string Y      
1-4 Exclusion string Y      
1-5 Sex string Y 성별 M, F  
1-6 Date_of_Birth string Y 생년월일    
1-7 Age string Y 연령    
1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인
PD:파킨슨 ET:본태성진전
MSA:다발성 신경계 위축 
TP:타우파킨슨
 
1-9 Symtom_onset string N      
1-10 Severity_class string N      
1-11 Underlying_disease_HTN string Y      
1-12 Underlying_disease_DM string Y      
1-13 Underlying_disease_Dyslipidemia string Y      
1-14 MRI_YN string Y      
1-15 MRI_Date string N      
1-16 MRI_Conclusion string N      
1-17 FDG_PET_YN string Y      
1-18 FDG_PET_Date string N      
1-19 FDG_PET_Conclusion string N      
1-20 FP_CIT_PET_YN string Y      
1-21 FP_CIT_PET_Date string N      
1-22 FP_CIT_PET_Conclusion string N      
2 annotation   Y 원천데이터별 라벨링정보    
  2-1 category string Y 라벨링 카테고리 A1~25 질문 카테고리
2-2 startTime number Y 음성 발화 시작 시간 0~100  
2-3 endTime number Y 음성 발화 종료 시간 0~300  
2-4 labelText string Y 음성 발화 입력 텍스트  
 

 

- 후향적데이터

후향적데이터
구분 속성명 타입 필수여부 설명 범위 비고
1 metaData   Y 메타 데이터 정보    
  1-1 Patient_No string Y 식별 ID    
1-2 ICF_Date string Y      
1-3 Inclusion string Y      
1-4 Exclusion string Y      
1-5 Sex string Y 성별 M, F  
1-6 Date_of_Birth string Y 생년월일    
1-7 Age string Y 연령    
1-8 Genetic_Dx string Y 질병 코드 PD  
1-9 Symtom_onset string Y      
2 annotation   Y 원천데이터별 라벨링정보    
  2-1 category string Y 라벨링 카테고리 A26~28 질문 카테고리
2-2 startTime number Y 음성 발화 시작 시간 0~100  
2-3 endTime number Y 음성 발화 종료 시간 0~300  
2-4 labelText string Y 음성 발화 입력 텍스트  
 

 

 실제예시
{
    "metaData": {
        "Patient_No": "3-001",
        "ICF_Date": "2022-07-04",
        "Inclusion": "Y",
        "Exclusion": "Y",
        "Sex": "F",
        "Date_of_Birth": "1983",
        "Age": "38",
        "Genetic_Dx": "NC",
        "Symtom_onset": "N",
        "Severity_class": "N",
        "Underlying_disease_HTN": "N",
        "Underlying_disease_DM": "N",
        "Underlying_disease_Dyslipidemia": "Y",
        "MRI_YN": "N",
        "MRI_Date": "",
        "MRI_Conclusion": "",
        "FDG_PET_YN": "N",
        "FDG_PET_Date": "",
        "FDG_PET_Conclusion": "",
        "FP_CIT_PET_YN": "N",
        "FP_CIT_PET_Date": "",
        "FP_CIT_PET_Conclusion": "",
    },
    "annotation": [
        {
            "category": "A18",
            "startTime": 0.84,
            "endTime": 6.96,
            "labelText": "무엇보다도 산에 오를 땐 더욱더 그 빼어난 아름다움이 느껴진다"
        }
    ]
}

 

 

 

데이터셋 구축 담당자

수행기관(주관) : 가천대학교 산학협력단
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
김광기 032-458-2770 kimkg@gachon.ac.kr 데이터 총괄 및 가공
수행기관(참여)
수행기관(참여)
기관명 담당업무
서울대학교 병원 데이터 수집 및 검수
분당서울대학교 병원 데이터 수집 및 검수
경북대학교 산학협력단 데이터 수집 및 검수
㈜미소정보기술 데이터 정제 및 저작도구 개발
㈜이피아이랩 AI모델 개발
인포뱅크(주) 데이터 품질 관리
울산대학교 산학협력단 데이터 품질 관리
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
김광기 032-4458-2770 kimkg@gachon.ac.kr