공공 의료데이터 상세

썸네일

뇌질환 융합데이터

##헬스케어 건강서비스
뇌질환 융합데이터를 이용하여 정상, 경도인지장애, 치매 환자 예측 AI 모델 제시
분야
헬스케어
유형
텍스트,이미지,비디오
생성 방식
안심존(온라인)
  • 구축년도 : 2022
  • 버전 : 1.2
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.2 2025-03-18 데이터 변경 원천데이터 추가
1.1 2023-11-30 데이터 최종 개방
1.0 2023-05-04 데이터 개방 Beta Version

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-05-08 데이터셋 변경 구축업체정보 수정
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 수정
2024-01-29 기타 데이터설명서, 구축업체정보 담당자 정보 수정
2024-01-26 산출물 최종 공개
2023-07-28 데이터셋 변경 담당자, 연락처 수정

소개

뇌질환 융합데이터를 이용하여 정상, 경도인지장애, 치매 환자 예측 AI 모델 제시

구축목적

임상 및 인지평가의 완전한 데이터셋(complete data set)을 근거로 한 경도인지장애와 치매 진단을 AI로 학습을 시켜서, 불완전한 데이터셋(incomplete data set)을 가진 환자의 진단을 AI 알고리듬을 통해 추정하는 진단법을 수립하는 것이 궁극적인 목적임.

 데이터 구축 규모

 데이터 구축 규모
구분 최종인원/ 뇌파 CDT 데이터  메타 데이터
목표인원(명) 데이터
정상 333/300 333 333 333
경도인지장애 400/400 400 400 400
치매 206/200 206 206 206
합계 939/900 939 939 939

 

 데이터 분포

다양성
(요건)
연령대별 분포 구성비
중첩률
구성비 중첩률 50% 치매환자 비율은 50대 이상부터 주로 발생하므로, 50대 이상을 모집하여 환자의 경우 60, 70대가 많음. 최대한 연령별 균등분포를 얻을 예정임 
목표 구성비
50 대 10.60%
60 대 24.60%
70 대  39.60%
80 대 24.10%
남녀 성비 구성비
중첩률
구성비 중첩률 50% 여성의 병원 방문과 인지장애 유병율이 높지만, 성별은 가능한 5:5 비율로 가깝게 구축할 예정임 
목표 구성비
남성 31.10%
여성 68.90%
질환별 분포 구성비
중첩률
구성비 중첩률 50% 질환명 분포를 다양성(통계) 목표치에 따라 최대한 가깝게 구축할 예정임 
목표 구성비
정상인 35.50%
경도인지장애 42.60%
치매 21.90%

모델 학습 프로세스
모델 학습 프로세스

qEEG 데이터와 CDT feature(score) 데이터, CDT image 데이터의 퇴행성 뇌질환 분류모델 적용을 위한 학습 프레임워크
본 사업의 AI모델 적용시에는 정상 300명, 경도인지장애 400명, 치매 200명의 데이터를 사용하였으며 Train Set : Validation Set : Test Set 비율은 80%, 10%, 10%로 분석진행

 

데이터 전처리 

데이터 전처리 과정

데이터의 merging과 matching, 데이터  scaling의 전처리 과정을 거쳐, 각 변수의 독립적인 특징을 평가하기 위해 Family Wise Error Rate(FWER)이 보정된 p-values에서 p-values cut off (유의수준)에 따라 유의한 변수만 가져오기 위한 mask를 생성함  
p-values cut off을 유의수준으로 수행한 다중 검정으로 증가한 FWER 위하여 adjust method로 p-value 보정
CDT score의 경우 순위 기반의 범주형 데이터이므로 scaling 과정은 생략한다. 
CDT image의 경우 시계 이미지의 크기에 맞게 bounding box 구현 후, 시계 그림만 cropping, resizing작업을 진행하여 모델에 적용하였다. 
*resize image shape = (128,128)

 

학습모델

단일 모달리티를 위한 머신러닝 모델로는 Support Vector Machine(Linear, Radial Basis Function), Logistic Regression, Random Forest를 사용함. 
CDT image 데이터 분석을 위한 Convolution Neural Network 모델을 사용하였고, 컨볼루션 신경망 모델 주요 학습 파라미터는 다음과 같이 사용함.
*optimizer = Adam, Loss = categorical cross entropy, Total Params  = 741,827
멀티모달 기반의 앙상블기법에 soft voting 방법을 사용하여 F1score로 평가함

 

 데이터 포멧

 데이터 포멧
원시 데이터 종류 CDT 데이터 뇌파 데이터 메타 데이터
원시 데이터 포맷 jpg edf txt

 

 데이터 구성
- 기관코드

데이터 구성- 기관코드
기관명 파일명 구조
동아대학교 병원 DMC
부산대학교 병원 PMC
동아대학교 산학협력단 DAU
㈜ 아이메디신 IMS
㈜ 에스씨티  SCT

 

- 데이터 코드(질병 구분별)

데이터 구성- 데이터 코드(질병 구분별)
데이터 종류 데이터 코드
NC 정상
MCI 경도인지장애
AD 치매 

 

어노테이션 포맷
 (1) CDT 데이터 (임상정보)

어노테이션 포맷(1) CDT 데이터 (임상정보)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 length number   측정 시간 (초)    
6 data_captured string   생성일자    
7 time string   수집 시간    
8 sex strimg   성별 M,W  
9 age number   나이    
10 height number      
11 weight number   몸무게    
12 diagnostic string   진단정보 0G0, 0G1, 0G2  
13 drug_use string   약물복용여부 M1 ~ M9  
14 score1  number  Y CDT질적 total score     
15 score2  number  Y CDT양적 total score   
 

 

 (2) CDT 데이터 (시계판 완결성)

어노테이션 포맷(2) CDT 데이터 (시계판 완결성)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 clock_x number   시계판 X 위치    
6 clock_y number   시계판 Y 위치    
7 width number   시계판 넓이    
8 height  number   시계판 높이    
9 intersec_rate number   시계판 정사각형비율    
10 score number Y 시계판 완결성  
 

 

 (3) CDT 데이터 (숫자의 표기여부 및 순서)

어노테이션 포맷(3) CDT 데이터 (숫자의 표기여부 및 순서)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관    
4 sequence string Y 순번    
5 num_direct string   시계숫자 방향    
6 num_1_x number   1시의 X 위치    
7 num_1_y number   1시의 Y 위치    
8 num_1_loc number   1시 위치의 시계값    
9 num_1_dup string   1시의 위치정확도    
10 num_2_x number   2시의 X 위치    
11 num_2_y number   2시의 Y 위치    
12 num_2_loc number   2시 위치의 시계값    
13 num_2_dup string   2시의 위치정확도    
14 num_3_x number   3시의 X 위치    
15 num_3_y number   3시의 Y 위치    
16 num_3_loc number   3시 위치의 시계값    
17 num_3_dup string   3시의 위치정확도    
18 num_4_x number   4시의 X 위치    
19 num_4_y number   4시의 Y 위치    
20 num_4_loc number   4시 위치의 시계값    
21 num_4_dup string   4시의 위치정확도    
22 num_5_x number   5시의 X 위치    
23 num_5_y number   5시의 Y 위치    
24 num_5_loc number   5시 위치의 시계값    
25 num_5_dup string   5시의 위치정확도    
26 num_6_x number   6시의 X 위치    
27 num_6_y number   6시의 Y 위치    
28 num_6_loc number   6시 위치의 시계값    
29 num_6_dup string   6시의 위치정확도    
30 num_7_x number   7시의 X 위치    
31 num_7_y number   7시의 Y 위치    
32 num_7_loc number   7시 위치의 시계값    
33 num_7_dup string   7시의 위치정확도    
34 num_8_x number   8시의 X 위치    
35 num_8_y number   8시의 Y 위치    
36 num_8_loc number   8시 위치의 시계값    
37 num_8_dup string   8시의 위치정확도    
38 num_9_x number   9시의 X 위치    
39 num_9_y number   9시의 Y 위치    
40 num_9_loc number   9시 위치의 시계값    
41 num_9_dup string   9시의 위치정확도    
42 num_10_x number   10시의 X 위치    
43 num_10_y number   10시의 Y 위치    
44 num_10_loc number   10시 위치의 시계값    
45 num_10_dup string   10시의 위치정확도    
46 num_11_x number   11시의 X 위치    
47 num_11_y number   11시의 Y 위치    
48 num_11_loc number   11시 위치의 시계값    
49 num_11_dup string   11시의 위치정확도    
50 num_12_x number   12시의 X 위치    
51 num_12_y number   12시의 Y 위치    
52 num_12_loc number   12시 위치의 시계값    
53 num_12_dup string   12시의 위치정확도    
54 score number Y 숫자표기및순서  
 

 

 (4) CDT 데이터 (바늘의 표기 여부 및 배치)

어노테이션 포맷(4) CDT 데이터 (바늘의 표기 여부 및 배치)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 hour_exist string   시침의 존재여부    
6 hour_x number   시침의 X 위치    
7 hour_y number   시침의 Y 위치    
8 hour_width number   시침의 넓이    
9 hour_height number   시침의 높이    
10 hour_length number   시침의 길이    
11 hour_angle number   시침의 각도    
12 hour_dist number   시침의 중심점의 거리    
13 min_exist string   분침의 존재여부    
14 min_x number   시침의 X 위치    
15 min_y number   시침의 Y 위치    
16 mon_width number   시침의 넓이    
17 min_height number   시침의 높이    
18 min_length number   시침의 길이    
19 min_angle number   분침의 각도    
20 min_dist number   분침의 중심점의 거리    
21 score number   숫자표기및순서  
 

 

 (5) CDT 데이터 (시계의 크기)

어노테이션 포맷(5) CDT 데이터 (시계의 크기)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 width number   시계 넓이    
6 height  number   시계 높이    
7 clock_size number   시계크기    
8 score number Y 시계 크기  
 

 

 (6) CDT 데이터 (그리기 어려움)

어노테이션 포맷(6) CDT 데이터 (그리기 어려움)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 clock_accuracy number   시계판의 정확도    
6 hands_accuracy number   시계바늘의 정확도    
7 number_accuracy number   숫자의 정확도    
8 score number Y 그리기어려움  
 

 

 (7) CDT 데이터 (자극속박반응)

어노테이션 포맷(7) CDT 데이터 (자극속박반응)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 hour_angle number   시침의 각도    
6 hour_number number   시침의 가르키는 숫자    
7 hour_draw string   시간을 숫자로 표기여부    
8 min_angle number   분침의 각도    
9 min_number number   분침의 가르키는 숫자    
10 min_draw number   분을 숫자로 표기여부    
11 score number Y 자극속박반응  
 

 

 (8) CDT 데이터 (개념적 결함)

어노테이션 포맷(8) CDT 데이터 (개념적 결함)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 clock_accuracy number   시계판에 정확도    
6 number_accuracy number   숫자의 정확도    
7 hands_accuracy number   시계바늘의 정확도    
8 score number Y 개념적 결함  
 

 

 (9) CDT 데이터 (공간과계획 결함)

어노테이션 포맷(9) CDT 데이터 (공간과계획 결함)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 ignore_left number   숫자의 좌측무시    
6 form_error number   특정형태오류    
7 pattern_error number   패턴오류    
8 number_outside number   시계판 밖에 숫자    
9 number_reverse number   반시계 방향으로 숫자기입    
10 score number Y 공간과계획결함  
 

 

 (10) CDT 데이터 (보속)

어노테이션 포맷(10) CDT 데이터 (보속)
구분 속성명 타입 필수여부 설명 범위 비고
1 id string Y 식별자(파일명)    
2 file_format string Y 스코어 파일확장자    
3 organ string Y 측정기관 DAU, DMC,SCT, PMC, CAU, IMS  
4 sequence string Y 순번    
5 hands_count number   바늘의 숫자    
6 num_1_count number   숫자1의 개수    
7 num_2_count number   숫자2의 개수    
8 num_3_count number   숫자3의 개수    
9 num_4_count number   숫자4의 개수    
10 num_5_count number   숫자5의 개수    
11 num_6_count number   숫자6의 개수    
12 num_7_count number   숫자7의 개수    
13 num_8_count number   숫자8의 개수    
14 num_9_count number   숫자9의 개수    
15 num_10_count number   숫자10의 개수    
16 num_11_count number   숫자11의 개수    
17 num_12_count number   숫자12의 개수    
18 score number Y 보속  
 

데이터셋 구축 담당자

수행기관(주관) : 가천대학교 산학협력단
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
데이터 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
㈜아이메디신 뇌질환 융합데이터 총괄 및 데이터 셋 구축 전 과정
동아대학교 병원 데이터 수집, 검수
부산대학교 병원 데이터 수집, 검수
㈜에스엔씨 데이터 정제, 가공
동아대학교 산학협력단 데이터 수집, 검수
㈜에스씨티 데이터 수집
㈜어니컴 데이터 검수
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
김지유 02-747-7422 jyk@imedisync.com