| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-13 | 데이터 최종 개방 | |
| 1.0 | 2023-05-04 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-06-25 | 데이터셋 변경 | 구축업체정보 수정 |
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-02-27 | 산출물 최종 공개 |
어음청력검사 이음절(12EA), 일음절(50EA) 1SET의 데이터셋 정상인 및 난청인의 어음청력검사 결과 ※ 난청인 : 기도청력 500Hz, 1,000Hz, 2,000Hz, 4,000Hz 구간 dB값 40이상
AI기반 자가 청력검사 및 청력 관련 임상의료지원시스템 개발에 활용 난청 관련 연구중심병원 및 임상의사 연구에 활용 청력관련 산업 기술개발 촉진
| 데이터 영역 | 헬스케어 | 데이터 유형 | 오디오 |
|---|---|---|---|
| 데이터 형식 | WAV, JSON | 데이터 출처 | 참여병원 자체 수집 |
| 라벨링 유형 | 전사(음성) | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | AI기반 자가 청력검사 | 데이터 구축년도/ 데이터 구축량 |
2022년/953,994 |
| 구분 | 라벨링데이터 | 난청인 | 여성 | 15세미만 |
|---|---|---|---|---|
| 데이터셋(인원기준) | 15,235명 | 5,080명 | 9,274명 | 1,541명 |
| 데이터셋(파일기준) | 944,570 | 314,960 | 574,988 | 95,542 |
| 1차 경로 | 2차 경로 | 파일 포맷 | 제출 수량 (명 * 62) |
|---|---|---|---|
| 최종 | |||
| 서울특별시 | 난청인 | .json | 492명×62 |
| 정상인 | .json | 1,111명×62 | |
| 부산광역시 | 난청인 | .json | 357명×62 |
| 정상인 | .json | 1,078명×62 | |
| 대구광역시 | 난청인 | .json | 504명×62 |
| 정상인 | .json | 845명×62 | |
| 인천광역시 | 난청인 | .json | 14명×62 |
| 정상인 | .json | 33명×62 | |
| 광주광역시 | 난청인 | .json | 357명×62 |
| 정상인 | .json | 615명×62 | |
| 대전광역시 | 난청인 | .json | 577명×62 |
| 정상인 | .json | 1,132명×62 | |
| 울산광역시 | 난청인 | .json | 10명×62 |
| 정상인 | .json | 14명×62 | |
| 세종특별자치시 | 난청인 | .json | 10명×62 |
| 정상인 | .json | 10명×62 | |
| 경기도 | 난청인 | .json | 125명×62 |
| 정상인 | .json | 408명×62 | |
| 강원도 | 난청인 | .json | 9명×62 |
| 정상인 | .json | 12명×62 | |
| 충청북도 | 난청인 | .json | 9명×62 |
| 정상인 | .json | 10명×62 | |
| 충청남도 | 난청인 | .json | 496명×62 |
| 정상인 | .json | 1,005명×62 | |
| 전라북도 | 난청인 | .json | 331명×62 |
| 정상인 | .json | 1,349명×62 | |
| 전라남도 | 난청인 | .json | 244명×62 |
| 정상인 | .json | 396명×62 | |
| 경상북도 | 난청인 | .json | 148명×62 |
| 정상인 | .json | 191명×62 | |
| 경상남도 | 난청인 | .json | 135명×62 |
| 정상인 | .json | 222명×62 | |
| 제주특별자치도 | 난청인 | .json | 1,262명×62 |
| 정상인 | .json | 1,724명×62 | |
| 총 수량 | 944,570 | ||
| (15,235명×62) | |||
| 구분 | Training | Validation | Test | Total | ||
|---|---|---|---|---|---|---|
| 난청 검사 | 할당 비율 | 80% | 10% | 10% | 100% | |
| 음성 데이터 | 데이터 | 인원기준 | 12,188 | 1,524 | 1,524 | 15,235 |
| 파일기준 | 755,656 | 94,457 | 94,457 | 944,570 | ||
□ 어음청력검사 음절표 발화 음성 인식 모델- (개발 목표) 난청인 및 정상인의 한국어 표준 단음절어표 및 이음절어표 발화 데이터를 학습하고, 이를 기반으로 음성 데이터를 인식- (개발 내용)구축되는 학습데이터를 사용하여 CTC-model을 학습하고, 학습된 모델을 사용하여 음성인식 실행
| 데이터 명 | 난청 검사 음성 데이터 | |||
|---|---|---|---|---|
| 학습 모델 후보 | 알고리즘 | 성능지표 | 선정 여부 | 선정 사유 |
| 어음청력검사 음절표 발화 음성 인식 모델 | CTC- model | WRR (Word Recognition Ratio) 70% 이상 | ○ | 1순위 |
| RNN-Transducer | X | 2순위 | ||
| Attention-based ASR model | X | 2순위 | ||
○ 데이터 구성
| 구분 | No | 속성명 | 속성 및 내용 |
|---|---|---|---|
| 필수 | 1 | data[].identifier | 라벨 고유값 |
| 필수 | 2 | data[].age | 나이 |
| 선택 | 3 | data[].sex | 성별 |
| 선택 | 4 | data[].hospital | 수집기관명 |
| 선택 | 5 | data[].date | 검사일자 |
| 선택 | 6 | data[].r_pta_ac_500 | 오른쪽 기도청력 |
| 500Hz 청력역치 | |||
| 선택 | 7 | data[].r_pta_ac_1000 | 오른쪽 기도청력 |
| 1000Hz 청력역치 | |||
| 선택 | 8 | data[].r_pta_ac_2000 | 오른쪽 기도청력 |
| 2000Hz 청력역치 | |||
| 선택 | 9 | data[].r_pta_ac_4000 | 오른쪽 기도청력 |
| 4000Hz 청력역치 | |||
| 선택 | 10 | data[].l_pta_ac_500 | 왼쪽 기도청력 |
| 500Hz 청력역치 | |||
| 선택 | 11 | data[].l_pta_ac_1000 | 왼쪽 기도청력 |
| 1000Hz 청력역치 | |||
| 선택 | 12 | data[].l_pta_ac_2000 | 왼쪽 기도청력 |
| 2000Hz 청력역치 | |||
| 선택 | 13 | data[].l_pta_ac_4000 | 왼쪽 기도청력 |
| 4000Hz 청력역치 | |||
| 필수 | 14 | data[].wav_file_path | 오디오파일 경로 |
| 필수 | 15 | data[].listen_word | 제시어 |
| 필수 | 16 | data[].is_correct | 발음 정오 판정 |
| 필수 | 17 | data[].location | 수집지역 |
| 필수 | 18 | data[].dictated_word | 발화음절 |
| 필수 | 19 | data[].is_disease | 난청여부 |
○ 어노테이션 포맷
| 구분 | 속성명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | data | Object | 음성정보 | ||||
| 1-1 | data[].identifier | String | 필수 | 라벨 고유값 | Primary Key | ||
| 1-2 | data[].age | Number | 필수 | 나이 | |||
| 1-3 | data[].sex | String | 선택 | 성별 | 남자, 여자 | ||
| 1-4 | data[].hospital | String | 선택 | 수집기관명 | 계명대학교병원, 단국대학교병원, 부산대학교병원, | ||
| 서울성모병원, 세브란스병원, | |||||||
| 전남대학교병원, | |||||||
| 전북대학교병원, | |||||||
| 제주대학교병원, | |||||||
| 충남대학교병원, | |||||||
| 전남대학교병원, | |||||||
| 전남대학교병원(위탁) | |||||||
| 1-5 | data[].date | Date | 선택 | 검사일자 | yyyy-MM-dd | datetime 형식 | |
| 1-6 | data[].r_pta_ac_500 | Number | 선택 | 오른쪽 기도청력 | -10 ~ 120 | ||
| 500Hz 청력역치 | |||||||
| 1-7 | data[].r_pta_ac_1000 | Number | 선택 | 오른쪽 기도청력 | -10 ~ 120 | ||
| 1000Hz 청력역치 | |||||||
| 1-8 | data[].r_pta_ac_2000 | Number | 선택 | 오른쪽 기도청력 | -10 ~ 120 | ||
| 2000Hz 청력역치 | |||||||
| 1-9 | data[].r_pta_ac_4000 | Number | 선택 | 오른쪽 기도청력 | -10 ~ 120 | ||
| 4000Hz 청력역치 | |||||||
| 1-10 | data[].l_pta_ac_500 | Number | 선택 | 왼쪽 기도청력 | -10 ~ 120 | ||
| 500Hz 청력역치 | |||||||
| 1-11 | data[].l_pta_ac_1000 | Number | 선택 | 왼쪽 기도청력 | -10 ~ 120 | ||
| 1000Hz 청력역치 | |||||||
| 1-12 | data[].l_pta_ac_2000 | Number | 선택 | 왼쪽 기도청력 | -10 ~ 120 | ||
| 2000Hz 청력역치 | |||||||
| 1-13 | data[].l_pta_ac_4000 | Number | 선택 | 왼쪽 기도청력 | -10 ~ 120 | ||
| 4000Hz 청력역치 | |||||||
| 1-14 | data[].wav_file_path | String | 필수 | 오디오파일 경로 | /voices/파일명 | ||
| 1-15 | data[].listen_word | String | 필수 | 사과 / 과자.. | |||
| 1-16 | data[].is_correct | String | 필수 | 발음 정오 판정 | 0 / 1 | 0 (오답) / | |
| 1 (정답) | |||||||
| 1-17 | data[].location | String | 필수 | 수집지역 | 서울특별시, 부산광역시, | ||
| 대구광역시, 인천광역시, | |||||||
| 광주광역시, 대전광역시, | |||||||
| 울산광역시, 세종특별자치시, | |||||||
| 경기도, 강원도, | |||||||
| 충청북도, 충청남도, | |||||||
| 전라북도, 전라남도, | |||||||
| 경상북도, 경상남도, | |||||||
| 제주특별자치도 | |||||||
| 1-18 | data[].dictated_word | String | 필수 | 사과 / 과장.. | |||
| 1-19 | data[].is_disease | Number | 필수 | 0,1 | 정상/난청 | ||

| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 이도경 | 02-3288-7900 | dk.lee@namutech.co.kr | 컨소시엄 총괄 |
| 기관명 | 담당업무 |
|---|---|
| 연세대학교산학협력단 | 데이터 수집, 정제, 가공 |
| 가톨릭대학교산학협력단 | 데이터 수집, 정제, 가공 |
| 충남대학교산학협력단 | 데이터 수집, 정제, 가공 |
| 단국대학교의과대학부속병원 | 데이터 수집, 정제, 가공 |
| 부산대학교병원 | 데이터 수집, 정제, 가공 |
| 계명대학교산학협력단 | 데이터 수집, 정제, 가공 |
| 전남대학교병원 | 데이터 수집, 정제, 가공 |
| 전북대학교병원 | 데이터 수집, 정제, 가공 |
| 제주대학교병원 | 데이터 수집, 정제, 가공 |
| ㈜이루온아이앤에스 | AI모델 개발 |
| 싸이버테크(주) | 저작도구 개발 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 이도경 | 02-3288-7900 | dk.lee@namutech.co.kr |