| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.2 | 2024-10-07 | 데이터 변경 | 데이터 수정 |
| 1.1 | 2023-12-06 | 데이터 최종 개방 | |
| 1.0 | 2023-05-04 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 수정 |
| 2023-12-08 | 산출물 최종 공개 |
고령인구 대상으로 인지기능, 음성, 활동량, 수면, 디지털 데이터 및 의료데이터 획득을 통해 최신 인공지능 학습기술 적용이 가능한 데이터 구축
노인(60세 이상)의 인지기능/음성/활동량/수면/디지털데이터 및 의료데이터를 수집하고 수집한 데이터에 가공을 거쳐 구축된 데이터 셋을 활용, 인공지능 학습데이터 구축을 하고 활용 가능한 AI 모델 제시
| 데이터 영역 | 헬스케어 | 데이터 유형 | 오디오 , 텍스트 |
|---|---|---|---|
| 데이터 형식 | wav, json, csv | 데이터 출처 | 자체 수집 |
| 라벨링 유형 | 오디오 | 라벨링 형식 | json |
| 데이터 활용 서비스 | 맞춤형 우울, 불면, 인지기능에 대한 건강 상태 정보 서비스 | 데이터 구축년도/ 데이터 구축량 |
2022년/9,000 |
| 환자군/대조군 분포 | |||
|---|---|---|---|
| group | COUNT | 비율 | 비고 |
| 1 | 1,122 | 18.70% | 대조군 |
| 2 | 4,878 | 81.30% | 환자군 |
| 남녀 성비 | |||
|---|---|---|---|
| gender | COUNT | 비율 | 비고 |
| 1 | 1,752 | 29.20% | 남자 |
| 2 | 4,248 | 70.80% | 여자 |
| 연령대별 분포 | ||
|---|---|---|
| age | count | 비율 |
| 60 이상 70 미만 | 2,442 | 40.70% |
| 70 이상 80 미만 | 3,174 | 52.90% |
| 80 이상 90 미만 | 384 | 6.40% |
| 독거/동거 분포 | |||
|---|---|---|---|
| MS | COUNT | 비율 | 비고 |
| 1 | 1,320 | 22.00% | 독거 |
| 2 | 4680 | 78.00% | 동거 |
| 우울 증상자/ 비증상자 분포 | |||
|---|---|---|---|
| depression | COUNT | 비율 | 비고 |
| 0 | 4,212 | 70.20% | 정상 |
| 1 | 1,788 | 29.80% | 우울 |
| 불면 증상자/ 비증상자 분포 | |||
|---|---|---|---|
| category_id | COUNT | 결과 구성비 | 비고 |
| 0 | 3,942 | 65.70% | 정상 |
| 1 | 2,058 | 34.30% | 불면 |
CNN-LSTM-MLP Network 설계
o 학습모델: 딥러닝(Deep Learning)
- 딥러닝은 머신러닝의 한 방법으로, 입력을 통해서 추론된 값과 목표로 하는 타겟의 에러(Error) 차이를 최소화(minimize)하는 방법임
- 기존의 머신러닝 기법과는 다르게 많은 파라미터를 사용하여 학습하고 많은 수의 층(layer)을 쌓는 구조로 학습을 하기 때문에 딥러닝이라는 명칭이 생겨나게 됨
- 각 층(layer)은 다양한 구조로 설계되어 알맞은 어플리케이션에 맞게 사용됨.
(a) CNN(Convolution neural network): 컨볼루션 연산을 사용할 수 있는 층(layer)으로 입력으로부터 특징(feature)을 추출하고 정보를 압축하는 역할을 수행함
(b) LSTM(Long short term memory): 시간 연속 데이터(time-series data)를 처리하기 위한 층(layer)으로 각 노드(node)는 현재의 입력과 과거의 출력을 같이 받아들여서 현재의 출력을 표현함. 시간 연속 데이터를 처리하기에 좋고 내부에 메모리를 가지고 있기 때문에 현재의 상태(state)를 저장하여 미래의 입력에 반영할 수 있음
(c) FC(Fully connected layer): 기본적인 신경층(neural layer)을 연결하여 모든 경우의 수를 다 학습하는 구조로 네트워크의 마지막 단계에서 샘플을 분류하거나 추론할 때 사용됨. 모든 노드(node)가 다 연결되어서 계산되므로 연산량이 많다는 단점이 있지만 분류능력이 좋음
- 위에서 언급된 층(layer)의 종류외에 다양한 구조가 있고 그러한 구조를 조합하여 전체 모델을 구성하게 됨. 딥러닝은 연산량이 많아서 GPU를 사용해야 하는 단점이 있지만 GPU의 병렬연산으로 계산이 연산량 대비 빠르고 성능이 기존 머신러닝과 비교해서 월등이 좋다는 장점이 있음.

o 입력 데이터
- 음성데이터: 마이크로부터 사람의 음성을 녹음하여 raw데이터를 사용
- Downsampling: sampling rate를 16kHz로 맞추어서 학습에 사용
- 음성 특징 추출 네크워크 (SincNet)
(a) 기존 머신러닝 기법들은 사람이 직접 음성데이터를 시간 영역에서 주파수 영역으로 변환하여 Mel-Frequency Cepstral Coefficients (MFCCs) 특징을 추출하여 사용
(b) MFCC는 인간의 말소리 인식에 중요한 특징으로 이용되었고 적당한 성능 및 효율을 제공하였음
(c) 하지만, 최근 딥러닝의 발전으로 시간 영역에서 주파수 영역으로 변환하지 않고 주파수 대역을 학습하는 기법들이 발전되어 왔음
o 모델 구성

- SincNet layer: 싱크넷은 2018년 벤지오 연구팀에서 개발된 네트워크로서 시간 영역에서 주파수 영역의 특징을 학습하는 방법을 제안한 모델임
(a) 인간의 목소리를 분류하는 데 필요한 주파수 대역은 남기고 나머지 주파수 대역은 무시하기 위해서 주파수 영역에서 Bandpass filter를 사용하여 필요 없는 주파수 대역을 제거함
(b) 주파수 영역에서 Bandpass filter는 시간 영역에서 Sinc 함수로 변환되고 주파수 영역에서 곱하기 연산은 시간 영역에서 콘볼루션(Convolution) 연산과 같음
(c) 이러한 원리에 착안하여 시간 영역에서 Sinc함수를 구현하여 음성데이터와 콘볼루션(Convolution) 연산을 취하면 주파수 영역에서 Bandpass filter를 사용하여 원하지 않는 영역대를 제거하는 연산과 동일한 연산을 할 수 있음
(d) SincNet layer는 Sinc함수를 구현하여 음성데이터와 콘볼루션 연산을하면서 Bandpass filter의 주파수 대역을 학습함으로써 우리가 원하는 대역을 잘 학습할 수 있음
- CNN layer: CNN(Convolution neural network) 레이어는 SincNet 레이어에서 추출된 음성 대역에서 콘볼루션(Convolution) 연산을 사용하여 특징(feature)을 추출, 변환, 압축하는 역할을 수행함. 콘볼루션 레이어는 N x N filter를 이용하여 콘볼루션 연산을 수행하는데 필터의 크기 및 레이어의 깊이에 따라서 인지영역(Receptive Field)을 계산하여 설계할 수 있음. 레이어 최종 층에서 만들어지는 특징은 하나의 특징이 이전 레이어에서 얼마나 많은 영역의 특징을 참고하여 만들어지는지에 따라서 특징이 가지는 분류, 추론 능력이 달라짐

- 구성 및 학습된 모델
(a) 기본적인 CNN-MLP 구조의 네트워크는 음성신호로부터 특징을 제대로 추출해내지 못해서 학습 능력이 많이 떨어짐
(b) SincNet 기반의 CNN-MLP 구조의 네트워크는 음성신호로부터 주파수 대역을 잘 추출하여 학습하여 우수한 성능을 냄
(c) SincNet + LSTM 기반의 구조는 초기에 빠른 학습 성능을 보여주지만 최종 성능은 SincNet 기반의 CNN-MLP 구조보다 조금 떨어짐

1.라벨링 데이터
| 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 |
|---|---|---|---|---|---|
| voice | Object | 음성정보 | |||
| category_id | Number | Y | 음성분류식별자 | [1,2,3,4, 5,6,7,8] | |
| file_name | String | Y | 음성파일명 | ||
| subject | Object | 참여자정보 | |||
| MS | Number | Y | 참여자 주거형태 | [1,2] | 1:독거 |
| 2:동거 | |||||
| sex | Number | Y | 참여자 성별 | [1,2] | 1:남자 |
| 2:여자 | |||||
| id | String | Y | 참여자번호 | [40001~ | |
| 70000] | |||||
| date_visited | String | Y | 방문일자 | YYYY-MM-DD | |
| age | Number | Y | 참여자 나이 | [17~99] | |
| group | Number | Y | 참여자구분 | [1,2] | 1:환자군 |
| 2:대조군 | |||||
| lifelog | Object | 라이프로그 정보 | |||
| total_wear_time | Number | N | 총 착용 시간(%) | ||
| total_steps | Number | N | 총 걸음 수 | ||
| total_sleep_time | Number | N | 총 수면 시간 | ||
| sleep_efficiency | Number | N | 수면효율(%) | ||
| Lux | Number | N | 평균 조도 | ||
| Kcals | Number | N | 평균 소모 에너지 | ||
| MET rate | Number | N | 평균 활동량 | ||
| depression | Object | 우울라벨링정보 | |||
| PHQ-9 | Number | Y | PHQ-9 점수 | [0~27] | |
| PHQ-9-1 | Number | Y | PHQ-9 1문항 답 | [0,1,2,3] | |
| PHQ-9-2 | Number | Y | PHQ-9 2문항 답 | [0,1,2,3] | |
| category_id | Number | Y | 클래스정보 | [0,1] | 0: 5 미만, 1: 5 이상 |
| category_name | String | Y | 라벨링텍스트 | [정상, | |
| 우울한 기분] | |||||
| insomnia | Object | 불면라벨링정보 | |||
| ISI | Number | Y | ISI 점수 | [0~28] | |
| category_id | Number | Y | 클래스정보 | [0,1] | 0: 8 미만, 1: 8 이상 |
| category_name | String | Y | 라벨링텍스트 | [정상, |
|
| 불면] |
3.임상데이터
| 구분 | 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | sd | Object | Y | 사회인구학적 특성 | |||
| 1-1 | marital | String | Y | 결혼상태정보 | |||
| 1-2 | code | String | Y | 결혼상태코드 | [1,2,3,4,5,6] | 1:기혼, 2:동거, 3:미혼, 4:이혼, 5:사별, 6:별거 | |
| 1-3 | name | String | Y | 결혼상태 | |||
| 1-4 | date | datetime | Y | 데이터 수집 일 | |||
| 1-5 | hospital_name | String | Y | 데이터 수집 장소 | |||
| 1-6 | education | String | Y | 교육 | |||
| 1-7 | smoking | String | Y | 흡연여부 | |||
| 1-8 | insurance | String | Y | 의료보장상태 | [1,2,3,4,5] | 1:건강보험, 2:보호 1종/2종/3종, 3:산재/자보, 4:일반, 5:기타 | |
| 1-9 | drinking | String | Y | 음주여부 | |||
| 1-10 | sex | String | Y | 성별 정보 | |||
| 1-11 | code | String | Y | 성별 코드 | [1,2] | 1:남자, | |
| 2:여자 | |||||||
| 1-12 | name | String | Y | 성별 이름 | |||
| 1-13 | living | String | Y | 주거환경 | |||
| 1-14 | code | String | Y | 주거환경 코드 | [1,2,3,4] | 1:대도시,2:소도시, 3:농어촌, 4:기타 | |
| 1-15 | name | String | Y | 주거환경 이름 | |||
| 1-16 | cohabitation | String | Y | 동거 형태 정보 | |||
| 1-17 | code | String | Y | 동거 형태 코드 | [1,2] | 1:독거,2:동거 | |
| 1-18 | name | String | Y | 동거 형태 이름 | |||
| 1-19 | job | String | Y | 직업 정보 | |||
| 1-20 | code | String | Y | 직업 코드 | [1,2,3,4,5] | 1:정규직,2:자영업/자유직,3:비정규직-전일,4:비정규직-파트타임,5:무직 | |
| 1-21 | name | String | Y | 직업 이름 | |||
| 1-22 | group | String | Y | 참여구분 | |||
| 1-23 | code | String | Y | 참여구분 코드 | [1,2] | 1:환자군, 2:대조군 | |
| 1-24 | name | String | Y | 참여구분 이름 | |||
| 1-25 | initial_name | String | Y | 참여자 이름 | |||
| 2 | physical_info | Object | Y | 신체정보 | |||
| 2-1 | bp1 | String | Y | 혈압(고)mmHg | |||
| 2-2 | bp2 | String | Y | 혈압(저)mmHg | |||
| 2-3 | pulse_rate | String | Y | 맥박수(회/min) | |||
| 2-4 | weight | String | Y | 몸무게(kg) | |||
| 2-5 | height | String | Y | 키(cm) | |||
| 3 | digital_device | Object | 디지털기기사용 정보 | ||||
| 3-1 | os | String | N | 디지털기기os정보 | [1,2] | ||
| 3-2 | app | String | N | 정신건강 관련 앱 소유 여부 | |||
| 3-3 | smartphone | String | N | 소유 디지털 기기 종류 | |||
| 3-4 | rank1 | String | N | 스마트폰 콘텐츠 이용 순위 1 | |||
| 3-5 | rank2 | String | N | 스마트폰 콘텐츠 이용 순위 2 | |||
| 3-6 | rank3 | String | N | 스마트폰 콘텐츠 이용 순위 3 | |||
| 3-7 | rank4 | String | N | 스마트폰 콘텐츠 이용 순위 4 | |||
| 3-8 | rank5 | String | N | 스마트폰 콘텐츠 이용 순위 5 | |||
| 4 | medh | Object | 내과적 병력 정보 | ||||
| 4-1 | cd | String | Y | 뇌혈관질환 정보 | |||
| 4-2 | name | String | Y | 뇌혈관질환 진단 여부 이름 | |||
| 4-3 | value | String | Y | 뇌혈관질환 진단 여부 값 | |||
| 4-4 | hbp | String | Y | 고혈압 정보 | |||
| 4-5 | name | String | Y | 고혈압 진단 여부 이름 | |||
| 4-6 | value | String | Y | 고혈압 진단 여부 값 | |||
| 4-7 | cancer | String | Y | 악성신생물(암) 정보 | |||
| 4-8 | name | String | Y | 악성신생물(암) 진단 여부 이름 | |||
| 4-9 | value | String | Y | 악성신생물(암) 진단 여부 값 | |||
| 4-10 | diabetes | String | Y | 당뇨병 정보 | |||
| 4-11 | name | String | Y | 당뇨병 진단 여부 이름 | |||
| 4-12 | value | String | Y | 당뇨병 진단 여부 값 | |||
| 4-13 | ap | String | Y | 협심증 또는 심근경색증 정보 | |||
| 4-14 | name | String | Y | 협심증 또는 심근경색증 진단 여부 이름 | |||
| 4-15 | value | String | Y | 협심증 또는 심근경색증 진단 여부 값 | |||
| 4-16 | misc | String | N | 기타 | |||
| 4-17 | no | String | N | 순번 | |||
| 4-18 | name | String | N | 병명 | |||
| 4-19 | value | String | N | 진단 여부 | |||
| 5 | APOE | Object | 유전자 정보 | ||||
| 5-1 | genotype | String | N | 치매 관련 데이터 | |||
| 6 | cantab | Object | 인지기능 정보 | ||||
| 6-1 | SWMBE468_P | String | N | percentile | |||
| 6-2 | SWMBE468_SS | String | N | standard score | |||
| 6-3 | SWMBE468 | String | N | value | |||
| 6-4 | SWMS_P | String | N | percentile | |||
| 6-5 | SWMS_SS | String | N | standard score | |||
| 6-6 | SWMS | String | N | value | |||
| 6-7 | RVPMDL | String | N | ||||
| 6-8 | RVPA | String | N | ||||
| 6-9 | RVPPFA | String | N | ||||
| 6-10 | PALTEA_P | String | N | percentile | |||
| 6-11 | PALTEA_SS | String | N | standard score | |||
| 6-12 | PALTEA | String | N | value | |||
| 6-13 | PALFAMS_P | String | N | percentile | |||
| 6-14 | PALFAMS_SS | String | N | standard score | |||
| 6-15 | PALFAMS | String | N | value | |||
| 7 | CDW | Object | 혈액검사 정보 | ||||
| 7-1 | AST | String | N | AST(SGOT) | |||
| 7-2 | TG | String | N | 중성지방(mg/dL) | |||
| 7-3 | FBS | String | N | 공복혈당(mg/dL) | |||
| 7-4 | eGRF | String | N | 신사구체여과율 | |||
| 7-5 | high_cole | String | N | 고밀도 콜레스테롤(mg/dL) | |||
| 7-6 | ALT | String | N | ALT(SGPT) | |||
| 7-7 | yGPT | String | N | 감마지티피 | |||
| 7-8 | total_cole | String | N | 총콜레스테롤(mg/dL) | |||
| 7-9 | low_cole | String | N | 저밀도 콜레스테롤(mg/dL) | |||
| 7-10 | HbA1c | String | N | 혈색소(g/dL) | |||
| 7-11 | blood_creat | String | N | 혈청 크레아티닌(mg/dL) | |||
| 8 | isi_info | Object | isi 검사 정보 | ||||
| 8-1 | q1a | String | Y | 문항1-a 답 | 0,1,2,3,4 | ||
| 8-2 | q1b | String | Y | 문항1-b 답 | 0,1,2,3,4 | ||
| 8-3 | q1c | String | Y | 문항1-c 답 | 0,1,2,3,4 | ||
| 8-4 | q2 | String | Y | 문항2 답 | 0,1,2,3,4 | ||
| 8-5 | q3 | String | Y | 문항3 답 | 0,1,2,3,4 | ||
| 8-6 | q4 | String | Y | 문항4 답 | 0,1,2,3,4 | ||
| 8-7 | q5 | String | Y | 문항5 답 | 0,1,2,3,4 | ||
| 9 | phq_info | Object | phq-9 검사정보 | ||||
| 9-1 | q1 | String | Y | 문항1 답 | 0,1,2,3 | ||
| 9-2 | q2 | String | Y | 문항2 답 | 0,1,2,3 | ||
| 9-3 | q3 | String | Y | 문항3 답 | 0,1,2,3 | ||
| 9-4 | q4 | String | Y | 문항4 답 | 0,1,2,3 | ||
| 9-5 | q5 | String | Y | 문항5 답 | 0,1,2,3 | ||
| 9-6 | q6 | String | Y | 문항6 답 | 0,1,2,3 | ||
| 9-7 | q7 | String | Y | 문항7 답 | 0,1,2,3 | ||
| 9-8 | q8 | String | Y | 문항8 답 | 0,1,2,3 | ||
| 9-9 | q9 | String | Y | 문항9 답 | 0,1,2,3 |
|
|
4. 라이프로그
- 수면량 데이터
| 항목 | 타입 | 필수여부 | 설명 |
|---|---|---|---|
| Subject Name | Number | Y | 대상자 번호 |
| File Name | String | Y | 액티라이프파일명 |
| Serial Number | String | Y | 시리얼번호 |
| Epoch Length | Number | Y | epoch 길이 |
| Weight | Number | Y | 입력한 몸무게 |
| Age | Number | Y | 입력한 나이 |
| Gender | String | Y | 입력한 성별 |
| Sleep/Wake Algorithm | String | Y | 수면/기상 알고리즘 |
| Sleep Period Detection Algorithm | String | Y | 수면 주기 감지 알고리즘 |
| In Bed Time | String | Y | 잠자리에든시간 |
| Out Bed Time | String | Y | 깨어난시간 |
| Efficiency | Number | Y | 수면효율 |
| Onset | String | Y | 시작시간 |
| Latency | Number | Y | 대기시간 |
| Total Sleep Time | Number | Y | 총 수면 시간 |
| WASO | Number | Y | 수면 시작 후 깬 횟수 |
| Number of Awakenings | Number | Y | 각성 횟수 |
| Length of Awakenings in Minutes | Number | Y | 각성 시간(분) |
| Activity Counts | Number | Y | 활동 수 |
| Movement Index | Number | Y | 이동 지수 |
| Fragmentation Index | Number | Y | 조각화 지수 |
| Sleep Fragmentation Index | Number | Y | 수면 조각화 지수 |
- 활동량 데이터
| 항목 | 타입 | 필수여부 | 설명 |
|---|---|---|---|
| date | String | Y | 날짜 |
| epoch | String | Y | epoch(1분단위) |
| axis1 | Number | Y | Axis 1 (Y-Axis) |
| axis2 | Number | Y | Axis 2 (X-Axis) |
| axis3 | Number | Y | Axis 3 (Z-Axis) |
| vm | Number | Y | Vector Magnitude |
| steps | Number | Y | 걸음수 |
| lux | Number | Y | 빛 노출량 |
| inclinometer off | Number | Y | inclinometer off |
| inclinometer standing | Number | Y | inclinometer standing |
| inclinometer sitting | Number | Y | inclinometer sitting |
| inclinometer lying | Number | Y | inclinometer lying |
| kcals | Number | Y | 활동량 |
| MET rate | Number | Y | 기초대사량 |
| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 김주완 | 062)220-6146 | tarot383@naver.com | 전체 사업관리 |
| 기관명 | 담당업무 |
|---|---|
| 화순전남대학교병원 | 데이터 수집 및 정제 |
| ㈜메가웍스 | 모델링 개발 |
| 모델링 개발 | 데이터 정제 및 가공 |
| 특허법인 지원 | 데이터 품질관리 및 검증 |
| 광주광역시청 | 일자리 창출 연계 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 김주완 | 062)220-6146 | tarot383@naver.com |