| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-01 | 데이터 최종 개방 | |
| 1.0 | 2023-04-30 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2023-12-01 | 산출물 최종 공개 |
만성질환의 경우 일상생활에서의 식생활, 신체활동, 음주, 흡연등의 생활습관 관리가 매우 중요한 요인으로 작용. 이에 당뇨, 고혈압, 만성콩팥병 등의 만성질환자 1천 명 이상과 정상 1천 명 이상을 대상으로 데이터셋 구축
만성질환 경과에 영향을 미치는 임상데이터, 생활습관 요인들 간의 상관관계를 연구하고 주요 만성질환 관리를 위한 인공지능 모델 개발과 이를 통한 만성질환 관리 플랫폼 개발
| 데이터 영역 | 헬스케어 | 데이터 유형 | 텍스트 |
|---|---|---|---|
| 데이터 형식 | csv | 데이터 출처 | 대학병원 전자 의무 기록, 참여자의 일상 |
| 라벨링 유형 | 분류 태그(시계열 데이터) | 라벨링 형식 | csv |
| 데이터 활용 서비스 | 만성질환 관리를 위한 생활습관 평가 모델 | 데이터 구축년도/ 데이터 구축량 |
2022년/1,874 |
1. 데이터 구축 규모
총 명수 : 2,109명
총 례수 : 3,861건
2. 데이터 분포
- 성별 분포
여자 : 52.39 % , ( 1106 명)
남자 : 47.61 % , ( 1005 명)
- 질환별 분포
만성질환자 : 49.93% (1054 명)
정상인 : 50.07% (1057 명)
당뇨병 : 16.6% (350 명)
고혈압 : 16.31% (344 명)
콩팥병 : 29.82% (629 명)

| 데이터 구축 후 인공지능 모델을 활용하여 입원사건 위험, 질환사건 위험, 사구체여과율 수치 예측을 수행하여 데이터의 유효성을 판별 | |
|---|---|
| 라벨데이터별 중요도 판별 : 단백뇨 여부 및 당화혈색소 이상여부 빈도 분석 | 이상 여부 빈도↓ => 이상 여부 중요도↑ |
| (이상 여부를 판단하는 것이 중요) | |
| 데이터 가용여부 판별 : 모델에 적용시키기 위하여 참여자별 임상검사, 생활습관, 웨어러블 데이터가 모두 존재하는지 판별 | 참여자별 임상검사, 생활습관, 웨어러블 데이터 여부 판별 |
| 모든 데이터가 존재할 경우 모델 적용 가능한 데이터↑ | |
| 예측결과 분석을 통한 유효성 판별 : 모델의 예측 결과를 출력후 모델별 Metric을 산출하여 분석 | Metric이 기준 성능 대비 유사하거나 높을수록 유효성↑ |
① 1DCNN+LSTM 모델(당화혈색소, 단백뇨 이상 여부 분류 모델)
- 생활습관 데이터와, 웨어러블 데이터를 결합하여 학습하고 이를 기반으로 당화혈색소 이상 여부 분류
- 구축 데이터는 회차별로 구분되는 임상데이터, 일 단위 분류되는 생활 습관 데이터와 분 단위 데이터인 웨어러블 데이터로 구분됨
- 두 유형의 데이터 모두를 활용하기 위해서 생활습관 및 임상데이터의 경우 1DCNN의 입력값, 웨어러블 데이터의 경우 LSTM의 입력값으로 사용되도록 구성
- 각 두 모델에서 출력된 feature를 결합하고 이를 활용하여 분류를 진행하는 모델 개발
- 데이터 구성
| 대상자 | 데이터 유형 | 횟수/기간 | 정제 담당 기업 |
|---|---|---|---|
| 만성질환자 (1,000명) |
HRA 데이터 | 1회 | 전남대학교, 나무인텔리전스 |
| 임상데이터 | 2회 | 참여 대학병원, 전남대학교, 나무인텔리전스 |
|
| 생활습관데이터 | 3개월 | 전남대학교, 나무인텔리전스 | |
| 정상인 (1,000명) |
HRA 데이터 | 1회 | 전남대학교, 나무인텔리전스 |
| 임상데이터 | 2회 | 참여 대학병원, 전남대학교, 나무인텔리전스 |
|
| 생활습관데이터 | 3개월 | 전남대학교, 나무인텔리전스 |
- 어노테이션 포맷
| 대상자 | 데이터 유형 | 횟수/기간 | 라벨 담당 기업 |
|---|---|---|---|
| 만성질환자, 정상인 (2,000명) |
라벨링 데이터 | 2회 3개월 |
각 대학병원 임상의 |
| 전남대학교 | |||
| 나무인텔리전스 |
| 컬럼명 | 컬럼 설명 | 형식 | 필수여부 | 예시 |
|---|---|---|---|---|
| date_enroll | 등록기준일 | datetime | Y | |
| org_enroll | 등록기관 | string | Y | |
| uid | 사용자 코드 | string | Y | |
| proteinuria | 단백뇨 여부 | boolean | Y | ['단백뇨' : 1, '정상' : 0] |
| glycated hemoglobin | 당화혈색소 여부 | boolean | Y | [‘비정상’ : 1, ‘정상’ : 0] |
- 실제 예시
| 실제 데이터 예시 |
|---|
![]() |
![]() |
| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 오태렴 교수 | 062-220-6296 | tryeomoh@daum.net | 과제 총괄 책임 / 데이터셋 설계 / 수집/ 가공 / 검수 |
| 기관명 | 담당업무 |
|---|---|
| 부산대학교병원 | 데이터셋 수집/ 가공 / 검수 |
| 전북대학교병원 | 데이터셋 수집/ 가공 / 검수 |
| 화순전남대병원 | 데이터셋 수집/ 가공 / 검수 |
| 씨젠의료재단 | 데이터셋 수집 |
| 커넥티드 | 비식별화 도구 / 저작도구 개발 |
| UNIST | 데이터셋 설계 / 비식별화 도구 / 저작도구 개발 |
| 전남대학교 산학협력단 | 데이터셋 정제 / 가공 / 학습모델구현 |
| 나무기술 | 데이터셋 설계 / 정제 |
| 나무인텔리전스 | 데이터셋 설계 / 가공 / 수집 도구 및 저작도구 개발 |
| 이루온아이앤에스 | 데이터 품질관리 / 학습모델 구현 |