| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-13 | 데이터 최종 개방 | |
| 1.0 | 2023-05-04 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-05-08 | 데이터셋 변경 | 구축업체정보 수정 |
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2024-01-10 | 산출물 최종 공개 |
전정기관 질환 환자들을 정상, 말초성, 중추성 군으로 분류하는 모델링을 위해 9 개 병원, 10여 기관에서 수집한 멀티 모달 수치, 이미지, 동영상데이터
전정기관 질환 환자들을 정상, 말초성, 중추성 군으로 분류하는 모델링
| 데이터 영역 | 헬스케어 | 데이터 유형 | 텍스트 , 이미지 |
|---|---|---|---|
| 데이터 형식 | tsv, png, avi | 데이터 출처 | 연구 참여 기관(상급 종합 병원) |
| 라벨링 유형 | 진단명/환자명/환자나이/이득여부/단속운동여부/두부충동검사/안구동영상(텍스트) | 라벨링 형식 | tsv |
| 데이터 활용 서비스 | • 전정기능검사 검사자 교육용 서비스 • 어지럼증 조기 진단 서비스 • 어지럼증 세부 분류를 위한 진단보조 서비스 • 어지럼증 진단을 위한 인공지능 기반 자동 분석 소프트웨어 구축 • 어지럼증 진단보조장치, 원격 진단 보조장치 개발 등 | 데이터 구축년도/ 데이터 구축량 |
2022년/2,391,589 |
1. 데이터 통계
가. 데이터 구축 규모
1) 포맷별: 텍스트 404만 6천, 이미지 208만 9천, 동영상 107만 2천
2) 데이터별: vHIT 검사 결과지: 총 139만건, 안구 동영상/눈깜빡임 이미지 레이블: 265만 6천, 안구 눈깜빡임 이미지: 208만 9천, 안구 움직임 동영상: 107만 2천
| 이름 | 결과물 건수 | 포맷 | 설명 |
|---|---|---|---|
| vHIT 검사결과지 | 139만 | 텍스트 | 단일 환자의 검진 시행별 동공, |
| 두부 움직임 강도, 이득, 단속운동 횟수, | |||
| 이득 정상 여부, | |||
| 단속 정상 여부 | |||
| vHIT 레이블 | 204만 9천 | 텍스트 | 동공 움직임 방향 동영상 및 눈깜빡임 이미지에 대한 레이블 |
| vHIT 눈깜빡임 이미지 | 136만 3천 | 이미지 | 눈깜빡임 정지 이미지 |
| vHIT 안구 움직임 동영상 | 68만 5천 | 동영상 | 키프레임 동영상 |
| SN 레이블 | 60만 7천 | 텍스트 | 동공 움직임 방향 동영상 및 눈깜빡임 이미지에 대한 레이블 |
| SN 눈깜빡임 이미지 | 72만 6천 | 이미지 | 눈깜빡임 정지 이미지 |
| SN 안구 움직임 동영상 | 38만 7천 | 동영상 | 키프레임 동영상 |
| 합계 | 720만 7천건 |
|
데이터 통계
1. 정상(건)
| 항목 | VHIT/SN | VHIT | SN |
|---|---|---|---|
| 결과지 | 동영상 | 동영상 | |
| 목표량 | 7,000 | 3,100 | 3,100 |
| 달성량 | 12,399 | 3,615 | 2,979 |
| 달성비 | 177.10% | 116.60% | 96.10% |
2. 말초성(건)
| 항목 | VHIT/SN | VHIT | SN |
|---|---|---|---|
| 결과지 | 동영상 | 동영상 | |
| 목표량 | 12,340 | 3,100 | 3,100 |
| 달성량 | 12,406 | 4,142 | 3,136 |
| 달성비 | 100.50% | 133.60% | 101.20% |
3. 중추성(건)
| 항목 | VHIT/SN | VHIT | SN |
|---|---|---|---|
| 결과지 | 동영상 | 동영상 | |
| 목표량 | 4,250 | 1,000 | 1,000 |
| 달성량 | 5,256 | 2,092 | 1,189 |
| 달성비 | 123.70% | 209.20% | 118.90% |
4. 데이터 분포
| 데이터 종류 | 정상 | 말초성 | 중추성 |
|---|---|---|---|
| VHIT/SN 결과지 | 41.30% | 41.30% | 17.50% |
| VHIT 동영상 | 36.70% | 42.10% | 21.20% |
| SN 동영상 | 40.80% | 42.90% | 16.30% |

1. 활용 모델
가. 모델 학습
1) 모델은 총 3개의 모델을 구현했으며, 그 선정 사유는 아래와 같음.
| 학습 모델 후보 | 알고리즘 | 성능지표 | 선정 사유 |
|---|---|---|---|
| 안진방향 판별 | CNN+RNN | AUC 0.50 이상 | 어지럼 진단에 중요한 요인 |
| 눈깜빡임 분류 | CNN | AUC 0.80 이상 | 노이즈 제거 |
| 전정질환군 분류 | LightGBM | AUC 0.60 이상 | 어지럼 진단 보조 |
2) 선정 시에 아래와 같은 사항에 대해서 고려했음
| 구분 | 고려사항 | 설명 |
|---|---|---|
| 1 | 적합성 | 데이터 셋 구축 목적에 적합한 학습모델인가? |
| 2 | 활용성 | 해당 분야에서 활용성이 높은 학습 모델인가? |
| 3 | 실현가능성 | 구축된 학습데이터셋을 활용하여 실제 어지럼증 유형 분류에 적용하고 실현가능성이 높은 모델인가? |
| 4 | 선정 절차 | 1) 선정 기준에 적합한 후보 리스트업 |
| 2) 1-Cycle 학습모델 개발 | ||
| 3) 성능평가 | ||
| 4) 최종 학습모델 선정 |
3) 최종적으로 아래와 같은 선정 지표들을 기준으로 선정했음.
| 후보 학습모델 | 적합성 | 활용성 | 실현가능성 | 선정여부 |
|---|---|---|---|---|
| 안진방향 판별 | 상 | 상 | 상 | O |
| 눈깜빡임 분류 | 상 | 상 | 상 | O |
| 전정질환군 분류 | 상 | 상 | 중 | O |
나. 서비스 활용 시나리오

1) 클라우드 기반 전정기능 검사 - AI 플랫폼 제공
2) 다양한 의료기관의 이비인후과 전문의가 활용할 수 있도록 추가 과제나 어지럼 기기 회사들과 협력 개발 도모
3) 클라우드 서비스 기반의 의료 지식베이스 제공
4) 어지럼 진단을 위한 인공지능 모델 데모 제공
5) 학술지 / 세미나 / 언론을 활용한 홍보
2. 기타정보
가. 포괄성
1) 전국 각지 (수도권, 전라도, 경상도, 충청도) 9개 병원 10개 기관의 데이터로 정상/말초성/중추성 환자군에 데이터를 포함하여 실제 유병율에 가까운 수치로 수집됨
나. 독립성
1) 원시 데이터에 있는 모든 개인정보 식별 가능한 정보는 수집 단계에서 파기 됨
다. 유의사항
1) 데이터 배포시 혹시나 있을 수 있는 환자 개인정보 침해에 대비하여 연구 참여자는 개인정보보호 서약서 등을 작성하여 데이터 배포 기관에 제출하도록 권고함.
1. 원천 데이터 포맷
1.1. vHIT 검사 결과지 이미지: 전문 의료인 확인용 (인공지능 학습용 X, 장비별 포맷 상이)


나. SN 검사지 이미지: 전문 의료인 확인용 (인공지능 학습용 X, 장비별 포맷 상이)

다. vHIT 검사지: 장비별 차이점에 대한 표준화 완료. 이득 정상 여부, 단속 운동 정상 여부, 두부 움직임, 동공 움직임 강도 시계열 데이터(예시는 정제 후)

라. vHIT/SN 수평/수직 안구 움직임 동영상

마. vHIT/SN 눈깜빡임 이미지

2. 데이터 구성
가. 환자 나이/성별/진단명 레이블
| Key | Description | Type |
| patient_id | 환자 아이디 | string |
| age | 환자 나이 | integer |
| sex | 환자 성별(‘M’ 또는 ‘F’) | character |
| diagnosis | 환자 세부 진단명 | string |
나. 두부 충동 검사 레이블
| Key | Description | Type |
| Patient ID | 환자 아이디 | string |
| Trial Number | 검사 번호 | integer |
| Test Date | 검사 일자 | Datetime |
| Test Type | 검사 종류 | string |
| Direction | 검사 방향 | string |
| Gain | 이득값 | float |
| Overt Saccades | 단속운동 횟수 | integer |
| Eye | 안구운동 속도(혹은 강도) | list[float] |
| Head | 두부운동 속도(혹은 강도) | list[float] |
| Gain Type | 이득 정상 여부(‘Normal’ 또는 ‘Abnormal’) | string |
| Saccadic Type | 단속운동 정상 여부(‘Normal’ 또는 ‘Abnormal’) | string |
다. 안구 동영상 레이블
| Key | Description | Type |
| frame_number | 프레임 번호 | integer |
| time_sec | 프레임 시간 | time |
| horizontal | 수직 방향(‘left’ 또는 ‘right’) | string |
| blink | 눈깜빡임 여부(‘C’ 또는 ‘O’) | character |
| blink_tagging | 눈깜빡임 가공값 (‘Open’, ‘Closing’, 또는 ‘Closed’) | string |
3. 가공 후 데이터 포맷 실제 데이터 예시
가. 환자 나이/성별/진단명
patient_id age sex diagnosis
NE_C_00029 78 M other central vestibulopathy
나. 두부 충동 검사
Patient ID Trial Number Test Date Test Type Direction Gain Overt Saccades Eye Head Gain Type Saccadic Type
NE_C_00043 1 2020-02-27 오전 10:21:01 SHIMP SHIMP Lateral Left 1.07 1.0 ['-0.741762337685663', '0.787383612346648', '0.221781891152281', '-0.848370860816113', '-0.757598256290897', (중략)] ['-0.721487502633797', '-1.0571808620088', '-1.2585968776338', '-1.4600128932588', '-1.5942902370088', (중략)] Normal Abnormal
다. 환자 동영상
frame_number time_sec horizontal blink blink_tagging
36 0:00:01.200000 C Closing
37 0:00:01.233333 right C Closing
38 0:00:01.266667 right C Closing
| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 이종대 교수 | 032-621-5451 | ljdent@schmc.ac.kr | 총괄 |
| 기관명 | 담당업무 |
|---|---|
| 뉴로이어즈 | 데이터 정제, 가공(이득, 단속 운동 정상 여부), 인공 지능 모델링 |
| 데이터헌트 | 데이터 가공(모든 데이터 가공 및 1차 검증) |
| 시너인 | 데이터 품질 검증(데이터 품질 최종 검증), 데이터 개방 지원팀 총괄 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 이종대 교수 | 032-621-5451 | ljdent@schmc.ac.kr |