| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.0 | 2022-07-29 | 데이터 개방 | 데이터 최초 개방 |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-06-30 | 데이터셋 변경 | 구축업체정보 수정 |
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2022-07-29 | 산출물 공개 | 콘텐츠 최초 등록 |
의료분야 음성 데이터는 환자 진료 및 의료상담 실데이터를 진료분야, 상담 내용 등의 세분화 및 라벨링 작업을 통하여 구축
충청북도 스마트 시티 챌린지 사업 중 의료분야 스마트화 실현화를 위하여 응급의료시스템과 비대면 의료 및 초기 의료 상담시스템에 AI 도입을 위한 학습용 의학 음성 데이터 구축
| 데이터 영역 | 헬스케어 | 데이터 유형 | 오디오 , 텍스트 |
|---|---|---|---|
| 데이터 형식 | TXT, WAV, M4A | 데이터 출처 | 전화 통화 및 의료 상담 녹음 |
| 라벨링 유형 | 진료 주제/ 화자 구성/ 크기(글자 수, 단어 수)/형태소 분석 데이터(자연어)/ 화행/ 등 | 라벨링 형식 | JSON |
| 데이터 활용 서비스 | 챗봇 | 데이터 구축년도/ 데이터 구축량 |
2021년/60,170 |
데이터 통계
| 데이터 도메인 | 수집 시간 | 파일개수(예상) | 제공 방식 | |||
|---|---|---|---|---|---|---|
| 환자 진료 데이터 | 100시간 | 약 1,200개 (회당 약 1분 분량) |
wav 음원 txt 전사파일 json 메타파일 |
|||
| 119 응급센터 데이터 | 300시간 | 10만 문장 | txt 전사파일 json 메타파일 |
|||
| 콜센터 상담 데이터 | 600시간 | |||||
| 총 합계 | 1,000시간 | |||||
A. 진료 음성 데이터
| 분류 | 주제 | 데이터구축량 (시간) |
||||
|---|---|---|---|---|---|---|
| 내과 | 내분비내과 | 100시간 | ||||
| 심장내과 | ||||||
| 알레르기내과 | ||||||
| 호흡기내과 | ||||||
| 류마티스내과 | ||||||
| 외과 | 간담췌외과 | |||||
| 흉부외과 | ||||||
| 기타 | 재활의학과 | |||||
B. 상담 텍스트 데이터
| 분류 | 주제 | 데이터구축량 (시간) |
||||
|---|---|---|---|---|---|---|
| 119 | 신경학적 응급 | 900시간 (10만 문장) |
||||
| 심혈관계 응급 | ||||||
| 중독 및 대사장애 | ||||||
| 외과적 응급증상 | ||||||
| 출혈 | ||||||
| 콜센터 | 기타 | |||||
| 예약 | ||||||
| 변경 | ||||||
| 일반상담 | ||||||
| 기타 | ||||||

활용 모델


1. 데이터셋 구성

2. 데이터셋 계층 구조

3. 메타데이터 포맷
| 구분 | 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |||
|---|---|---|---|---|---|---|---|---|---|
| 1 | dataset | 데이터셋 라벨 정보 | |||||||
| 1-1 | identifier | number | M | 데이터셋 식별자 | |||||
| 1-2 | name | string | O | 데이터셋 명 | |||||
| 1-3 | src_path | string | M | 데이터셋 폴더 위치 | |||||
| 1-4 | label_path | string | M | 데이터셋 레이블 폴더 위치 | |||||
| 1-5 | category | number | O | 데이터셋 분류 | |||||
| 1-6 | type | number | O | 데이터셋 타입 | |||||
| 2 | licenses | 라이선스 라벨 정보 | |||||||
| 2-1 | name | string | M | 라이선스명 | |||||
| 2-2 | url | string | M | 문서 식별자 | |||||
| 3 | info[] | 원시 데이터 라벨 정보 | |||||||
| 3-1 | id | number | M | 원시 데이터 고유번호 | |||||
| 3-2 | filename | string | M | 원시 데이터 파일명 | 작업파일명.확장자 | 파일명규칙 | |||
| 3-3 | title | string | O | 원시 데이터 제목 | 작업 파일명 | ||||
| 3-4 | mediatype | string | O | 매체유형 | |||||
| 3-5 | medianame | string | M | 데이터 매체(수집) | 진료실, 전화상담, 기타 | ||||
| 3-6 | category | string | M | 원시 데이터 카테고리 | 진료상담 | 주제별 | |||
| 3-7 | date | string | M | 수집일자 | YYYY-MM-DD | ||||
| 3-8 | size | number | M | 원시 데이터 크기(글자수) | |||||
| 3-9 | annotations[] | 원천데이터별 라벨링정보 | |||||||
| 3-9-1 | subject | string | M | 진료 주제 | 내분비내과, 심장내과, 알레르기내과, 호흡기내과, 류마티스내과, 간담췌외과, 흉부외과, 재활의학과, 신경학적 응급, 심혈관계 응급, 중독 및 대사장애, 외과적 응급증상, 출혈, 기타, 예약, 변경, 일반 상담, 기타 | ||||
| 3-9-2 | speaker_type | string | M | 화자 구성 | 1명, 2명, 3명, 4명, N명 | ||||
| 3-9-3 | size | number | M | 크기(글자수) | |||||
| 3-9-4 | word_size | number | M | 크기(단어수) | |||||
| 3-9-5 | lines[] | 문장별 정보 | |||||||
| 3-9-5-1 | id | number | M | 문장 번호 | |||||
| 3-9-5-2 | text | string | M | 문장 내용 | |||||
| 3-9-5-3 | norm_text | string | M | 정제된 문장내용 | |||||
| 3-9-5-4 | speaker | 화자 정보 | |||||||
| 3-9-5-4-1 | id | number | O | 화자 식별정보 | |||||
| sex | string | O | 화자의 성별 | 남, 녀, 모름 | |||||
| age | string | O | 화자의 연령대 | 소아, 청소년, 청년, 중년, 장년, 노령 | |||||
| 3-9-5-5 | speechAct | string | O | 화행 | 단언 질문하기, 단언 주장하기, 단언 진술하기, 단언 반박하기, 지시 설명하기, 지시 충고/제안하기, 지시 명령/요구하기, 지시 부탁하기, 언약 약속하기, 언약 위협하기, 언약 거절하기, 표현 인사하기, 표현 감사하기, 표현 사과하기, 표현 울움/슬퍼하기, 표현 웃음/즐거워하기, 표현 긍정 표현하기, 표현 부정 표현하기, 기타 관습적 표현, 기타 미정의 |
||||
| 3-9-5-6 | morpheme | string | M | 형태소 분석데이터 | |||||
4. 샘플

| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 박보희 | 043-261-2846 | pbhmail26@gmail.com | · 데이터 수집 및 과제관리 총괄 |
| 기관명 | 담당업무 |
|---|---|
| ㈜제너럴이노베이션즈 | · 데이터 설계 및 가공 |
| ㈜퀀텀웨이브 | · 데이터 설계 및 AI학습모델 구현 |
| 남서울대학교 | · 데이터 설계 및 데이터 검수 등 |
| 충청북도청 | · 데이터 설계 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 박보희 | 043-261-2846 | pbhmail26@gmail.com |