공공 의료데이터 상세

썸네일

의료 분야 음성 데이터

##의료용 AI학습데이터## 대학## 병원## 의료상담
의료분야 음성 데이터는 환자 진료 및 의료상담 실데이터를 진료분야, 상담 내용 등의 세분화 및 라벨링 작업을 통하여 구축
분야
헬스케어
유형
오디오,텍스트
생성 방식
안심존(온라인)
  • 구축년도 : 2021
  • 버전 : 1.0
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.0 2022-07-29 데이터 개방 데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-06-30 데이터셋 변경 구축업체정보 수정
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2022-07-29 산출물 공개 콘텐츠 최초 등록

소개

의료분야 음성 데이터는 환자 진료 및 의료상담 실데이터를 진료분야, 상담 내용 등의 세분화 및 라벨링 작업을 통하여 구축

구축목적

충청북도 스마트 시티 챌린지 사업 중 의료분야 스마트화 실현화를 위하여 응급의료시스템과 비대면 의료 및 초기 의료 상담시스템에 AI 도입을 위한 학습용 의학 음성 데이터 구축

데이터 통계 

데이터 통계 
데이터 도메인 수집 시간 파일개수(예상) 제공 방식
환자 진료 데이터 100시간 약 1,200개
(회당 약 1분 분량)
wav 음원
txt 전사파일
json 메타파일
119 응급센터 데이터 300시간 10만 문장 txt 전사파일
json 메타파일
콜센터 상담 데이터 600시간
총 합계 1,000시간  


A. 진료 음성 데이터

A. 진료 음성 데이터
분류 주제 데이터구축량
(시간)
내과 내분비내과 100시간
심장내과
알레르기내과
호흡기내과
류마티스내과
외과 간담췌외과
흉부외과
기타 재활의학과


B. 상담 텍스트 데이터

B. 상담 텍스트 데이터
분류 주제 데이터구축량
(시간)
119 신경학적 응급 900시간
(10만 문장)
심혈관계 응급
중독 및 대사장애
외과적 응급증상
출혈
콜센터 기타
예약
변경
일반상담
기타

 

의료 분야 음성 데이터-데이터 통계_1

활용 모델

  • AI 챗봇 서비스
    - Built-in ML 알고리즘, 3RD Party 알고리즘과 프레임워크를 제공하여 고객의 적용 업무에 따라 다양하게 활용할 수 있도록 지원함. 특히 청각 장애인 경우 채팅을 메신저를 통한 서비스에 활용 가능
    의료 분야 음성 데이터-활용 모델_1_AI서비스 스택 및 ML 프레임워크
    [AI서비스 스택 및 ML 프레임워크]
    - AI 엔진은 자연어 처리(NLP)를 위한 형태소 분석, 용어사전, Woed2Vec 등의 요소기술을 통하여 이용자의 질문의도를 파악하고 서비스하기 위한 기술적인 구조(Architecture)를 가지고 있으며 Pnp 아키텍처 기반으로 필요한 채팅 서비스를 확장하여 활용 가능
    의료 분야 음성 데이터-활용 모델_2_AI서비스 모델링을 위한 아키텍쳐
    [AI서비스 모델링을 위한 아키텍쳐]
    - 상담사 지원 서비스로 의료 서비스 상담시 자동으로 상담내용 분석을 통한 상담사 질의답변 대응을 위한 상담사 지원 서비스에 활용 가능
    의료 분야 음성 데이터-활용 모델_3_상담사 지원 서비스 예      
    [상담사 지원 서비스 예]

1. 데이터셋 구성

의료 분야 음성 데이터-데이터셋 구성_1

2. 데이터셋 계층 구조

의료 분야 음성 데이터-데이터셋 계층 구조_1

3. 메타데이터 포맷

3. 메타데이터 포맷
구분 항목명 타입 필수여부 설명 범위 비고
1 dataset     데이터셋 라벨 정보    
  1-1 identifier number M 데이터셋 식별자    
1-2 name string O 데이터셋 명    
1-3 src_path string M 데이터셋 폴더 위치    
1-4 label_path string M 데이터셋 레이블 폴더 위치    
1-5 category number O 데이터셋 분류    
1-6 type number O 데이터셋 타입    
2 licenses     라이선스 라벨 정보    
  2-1 name string M 라이선스명    
2-2 url string M 문서 식별자    
3 info[]     원시 데이터 라벨 정보    
  3-1 id number M 원시 데이터 고유번호    
3-2 filename string M 원시 데이터 파일명 작업파일명.확장자 파일명규칙
3-3 title string O 원시 데이터 제목 작업 파일명  
3-4 mediatype string O 매체유형    
3-5 medianame string M 데이터 매체(수집) 진료실, 전화상담, 기타  
3-6 category string M 원시 데이터 카테고리 진료상담 주제별
3-7 date string M 수집일자 YYYY-MM-DD  
3-8 size number M 원시 데이터 크기(글자수)    
3-9 annotations[]     원천데이터별 라벨링정보    
  3-9-1 subject string M 진료 주제 내분비내과, 심장내과, 알레르기내과, 호흡기내과, 류마티스내과, 간담췌외과, 흉부외과, 재활의학과, 신경학적 응급, 심혈관계 응급, 중독 및 대사장애, 외과적 응급증상, 출혈, 기타, 예약, 변경, 일반 상담, 기타  
3-9-2 speaker_type string M 화자 구성 1명, 2명, 3명, 4명, N명  
3-9-3 size number M 크기(글자수)    
3-9-4 word_size number M 크기(단어수)    
3-9-5 lines[]     문장별 정보    
  3-9-5-1 id number M 문장 번호    
3-9-5-2 text string M 문장 내용    
3-9-5-3 norm_text string M 정제된 문장내용    
3-9-5-4 speaker     화자 정보    
3-9-5-4-1 id number O 화자 식별정보    
sex string O 화자의 성별 남, 녀, 모름  
age string O 화자의 연령대 소아, 청소년, 청년, 중년, 장년, 노령  
3-9-5-5 speechAct string O 화행 단언 질문하기,
단언 주장하기,
단언 진술하기,
단언 반박하기,
지시 설명하기,
지시 충고/제안하기, 지시 명령/요구하기, 지시 부탁하기, 언약 약속하기,
언약 위협하기,
언약 거절하기,
표현 인사하기,
표현 감사하기,
표현 사과하기,
표현 울움/슬퍼하기, 표현 웃음/즐거워하기, 표현 긍정 표현하기, 표현 부정 표현하기, 기타 관습적 표현,
기타 미정의
 
3-9-5-6 morpheme string M 형태소 분석데이터    

 

 

4. 샘플

의료 분야 음성 데이터-샘플_1

 

 

 

데이터셋 구축 담당자

수행기관(주관) : 충북대학교 산학협력단
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
박보희 043-261-2846 pbhmail26@gmail.com · 데이터 수집 및 과제관리 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
㈜제너럴이노베이션즈 · 데이터 설계 및 가공
㈜퀀텀웨이브 · 데이터 설계 및 AI학습모델 구현
남서울대학교 · 데이터 설계 및 데이터 검수 등
충청북도청 · 데이터 설계
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
박보희 043-261-2846 pbhmail26@gmail.com