| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-01-09 | 데이터 제공방식 변경 | 안심존 온라인으로 수정 |
| 1.0 | 2022-07-13 | 데이터 개방 | 데이터 최초 개방 |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2022-07-13 | 산출물 공개 | 콘텐츠 최초 등록 |
당뇨병의 임상정보, 추적관찰 데이터와 라이프로그 데이터, 경동맥 초음파 영상 이미지를 포함한 인공지능 학습용 데이터셋 (의료 지식 베이스)
인공지능을 탑재 또는 응용한 의료 융합 서비스에서 해당 인공지능이 “당뇨병 진료 기록 추적을 통한 효과적인 진료 및 지속적인 당뇨병 환자의 관리”에서 효과적으로 그 기능을 갖고 의사의 치료 활동에 적절한 서포트 및 지원을 할 수 있는 기능을 범용적인 수준에서 일정 수준 이상을 확보할 수 있도록 의미 있는 인공지능 학습 데이터가 될 수 있도록 함.
| 데이터 영역 | 헬스케어 | 데이터 유형 | 텍스트 , 이미지 |
|---|---|---|---|
| 데이터 형식 | txt, png | 데이터 출처 | 경희대학교병원 / 강동경희대학교병원 / 가천대학교 길병원 / 닥터다이어리 |
| 라벨링 유형 | 바운딩 박스, 폴리라인, 폴리곤 | 라벨링 형식 | json |
| 데이터 활용 서비스 | 수요기관 연계 학술 연구, 수요기관 연계 디지털 헬스 솔루션 개발 | 데이터 구축년도/ 데이터 구축량 |
2021년/36,000 |
1. 데이터 구축 규모

2. 데이터 분포
| 데이터 종류 | 수량 | 출처 |
|---|---|---|
| 건강검진대상자/당뇨병 | 20,000건 | 경희대학교병원 강동경희대학교병원 가천대학교 길병원 |
| 경동맥 초음파 영상 | 20,000건 | 경희대학교병원 강동경희대학교병원 가천대학교 길병원 |
| 당뇨병 라이프 로그 | 10,000건 | 닥터다이어리 |
1. 초음파 경동맥 이미지 분할(Segmentation) 모델 개발

2. 경동맥 내중막 두께 예측 모델 개발

3. 당뇨병 발병 예측 모델

4. 당뇨 합병증 발병 예측 모델

1. 소개

2. 대표도면

3. 라벨링데이터 구성
| 구분 | 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | info | Object | M | 데이터셋정보 | |||
| 1-1 | description | String | M | 데이터셋명 | "Follow-up Data of Diabetes Mellitus and Complications AI Dataset" | ||
| 1-2 | year | Number | M | 데이터 생성년도 | 2021 | ||
| 1-3 | version | String | M | 데이터 버전 | 1 | ||
| 1-4 | contributor | String | M | 데이터 제공기관 | 경희대학교 산학협력단 |
||
| 2 | images | Object | M | 이미지정보 | |||
| 2-1 | file_name | String | M | 이미지파일명 | |||
| 2-2 | file_format | String | M | 이미지포맷 | |||
| 2-3 | width | Number | M | 이미지너비 | [0~1920] | ||
| 2-4 | height | Number | M | 이미지높이 | [0~1080] | ||
| 2-5 | pt_id | String | M | 환자식별자 | |||
| 2-6 | date_created | String | M | 촬영일자 | yyyy.mm.dd | ||
| 2-7 | cca_dr | String | M | 경동맥위치 | |||
| 2-8 | gender | String | M | 성별 | M=Male, F=Female U=Unknown |
||
| 2-9 | age | Number | M | 연령 | [20~200] | ||
| 2-10 | data_cd | Number | M | 데이터 분류 | [1,0] 1:당뇨외래 0:건강검진 |
||
| 2-11 | is_plaque | Number | M | Plaque 여부 | [1,0] | ||
| 2-12 | is_stenosis | Number | M | stenosis 여부 | [1,0] | ||
| 3 | annotation | Array of Object | M | 라벨링정보 | [1,0] | ||
| 3-1 | id | Number | M | 라벨링식별자 | |||
| 3-2 | category_cd | Number | M | 클래스코드 | [1,2,3,4,5] | ||
| 3-3 | category_name | String | M | 클래스명 | [초음파 영상 영역, 혈관 외벽,혈관 내벽,Plaque,IMT 구간] | ||
| 3-4 | Type | String | M | 라벨링텍스트 | bbox, polyline, segmentation |
||
| 3-5 | coordinate | Array | C | 좌표정보 | Type이 segmentation과 Polyline일 경우 존재 [[[x1,y1],[x2,y2],...,[xn,yn]]] |
||
| 3-6 | bbox | Object | C | 바운딩박스 | Type이 bbox일 경우 존재 | ||
| 3-6-1 | x | Number | C(상위종속) | 좌표정보 | |||
| 3-6-2 | y | Number | C(상위종속) | 좌표정보 | |||
| 3-6-3 | width | Number | C상위종속) | 좌표정보 | |||
| 3-6-4 | height | Number | C(상위종속) | 좌표정보 | |||
| 4 | imt | Object | O | imt 측정값 | |||
| 4-1 | imt_max_value | String | O | imt 최대값 | |||
| 4-2 | imt_avg_value | String | O | imt 평균값 | |||
| 5 | category | Array | M | 카테고리 코드표 | |||
| Object | |||||||
| 5-1 | name | String | M | 클래스명 | |||
| 5-2 | value | String | M | 클래스영문명 | |||
| 5-3 | cd | Number | M | 클래스코드 | |||
| 구분 | 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 |
|---|---|---|---|---|---|---|
| 1 | info | Object | M | 데이터셋정보 | ||
| 1-1 | description | String | M | 데이터셋명 | "Follow-up Data of Diabetes Mellitus and Complications AI Dataset" | |
| 1-2 | year | String | M | 데이터 생성년도 | 2021 | |
| 1-3 | version | String | M | 데이터 버전 | 1 | |
| 1-4 | contributor | String | M | 데이터 제공기관 | 경희대학교 산학협력단 |
|
| 2 | pt_info | Object | M | 환자기본정보 | ||
| 2-1 | CDMID | Number | M | 환자코드 | 8자리정수 | |
| 2-2 | gender | String | M | 성별 | M=Male, F=Female U=Unknown |
|
| 2-3 | age | Number | M | 연령 | [20~200] | |
| 3 | date | String | M | 검진기준일 | yyyy.mm.dd | |
| 4 | baseline_ci | Object | O | baseline 기저임상정보 | ||
| 4-1 | Ht | Number | O | 신장 | 소수첫째자리까지 [100 ~ 250] |
|
| 4-2 | Wt | Number | O | 체중 | 소수첫째자리까지 [20 ~ 200] |
|
| 4-3 | BMI | Number | O | 체질량지수 | 소수첫째자리까지 | |
| 4-4 | SBP | Number | O | 수축기혈압 | 정수 [30 ~ 300] |
|
| 4-5 | DBP | Number | O | 이완기혈압 | 정수 [30 ~ 300] |
|
| 4-6 | PR | Number | O | 맥박 | 정수 [10 ~ 300] |
|
| 4-7 | HbA1c | Number | O | 당화혈색소 | 소수첫째자리까지 [2 ~ 30] |
|
| 4-8 | FBG | Number | O | (공복)혈당 | 정수 [10 ~ 999] |
|
| 4-9 | TC | Number | O | 총콜레스테롤 | 정수 [10 ~ 999] |
|
| 4-10 | TG | Number | O | 중성지방 | 정수 [10 ~ 999] |
|
| 4-11 | LDL | Number | O | LDL 콜레스테롤 | 정수 [10 ~ 999] |
|
| 4-12 | HDL | Number | O | HDL 콜레스테롤 | 정수 [10 ~ 199] |
|
| 4-13 | Alb | Number | O | 알부민 | 소수첫째자리까지 | |
| 4-14 | BUN | Number | O | 혈중요소질소 | 소수첫째자리까지 [0 ~ 200] |
|
| 4-15 | Cr | Number | O | 크레아티닌 | 소수둘째자리까지 [0 ~ 99.99] |
|
| 4-16 | CrCl | Number | O | 크레아티닌 청소율 | 소수둘째자리까지 | |
| 4-17 | AST | Number | O | AST | 정수 [0 ~ 999] |
|
| 4-18 | ALT | Number | O | ALT | 정수 [0 ~ 999] |
|
| 4-19 | GGT | Number | O | GGT | 정수 [0 ~ 999] |
|
| 4-20 | ALP | Number | O | ALP | 정수 [0 ~ 999] |
|
| 5 | date_E | String | M | 검진기준일(End) | yyyy.mm.dd | |
| 6 | end_ci | Object | O | End 기저임상정보 | ||
| 6-1 | Ht_E | Number | O | 신장 | 소수첫째자리까지 [100 ~ 250] |
|
| 6-2 | Wt_E | Number | O | 체중 | 소수첫째자리까지 [20 ~ 200] |
|
| 6-3 | BMI_E | Number | O | 체질량지수 | 소수첫째자리까지 | |
| 6-4 | SBP_E | Number | O | 수축기혈압 | 정수 [30 ~ 300] |
|
| 6-5 | DBP_E | Number | O | 이완기혈압 | 정수 [30 ~ 300] |
|
| 6-6 | PR_E | Number | O | 맥박 | 정수 [10 ~ 300] |
|
| 6-7 | HbA1c_E | Number | O | 당화혈색소 | 소수첫째자리까지 [2 ~ 30] |
|
| 6-8 | FBG_E | Number | O | (공복)혈당 | 정수 [10 ~ 999] |
|
| 6-9 | TC_E | Number | O | 총콜레스테롤 | 정수 [10 ~ 999] |
|
| 6-10 | TG_E | Number | O | 중성지방 | 정수 [10 ~ 999] |
|
| 6-11 | LDL_E | Number | O | LDL 콜레스테롤 | 정수 [10 ~ 999] |
|
| 6-12 | HDL_E | Number | O | HDL 콜레스테롤 | 정수 [10 ~ 199] |
|
| 6-13 | Alb_E | Number | O | 알부민 | 소수첫째자리까지 | |
| 6-14 | BUN_E | Number | O | 혈중요소질소 | 소수첫째자리까지 [0 ~ 200 ] |
|
| 6-15 | Cr_E | Number | O | 크레아티닌 | 소수둘째자리까지 [0 ~ 99.99] |
|
| 6-16 | CrCl_E | Number | O | 크레아티닌 청소율 | 소수둘째자리까지 | |
| 6-17 | AST_E | Number | O | AST | 정수 [0 ~ 999] |
|
| 6-18 | ALT_E | Number | O | ALT | 정수 [0 ~ 999] |
|
| 6-19 | GGT_E | Number | O | GGT | 정수 [0 ~ 999] |
|
| 6-20 | ALP_E | Number | O | ALP | 정수 [0 ~ 999] |
|
| 7 | Diabetes_N_E | String | M | 당뇨병 신규발생 | Y=Yes, N=No |
| 구분 | 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | ||
|---|---|---|---|---|---|---|---|---|
| 1 | dataset_info | Object | M | 데이터셋정보 | ||||
| 1-1 | description | String | M | 데이터셋명 | "Follow-up Data of Diabetes Mellitus and Complications AI Dataset" | |||
| 1-2 | year | Number | M | 데이터 생성년도 | 2021 | |||
| 1-3 | version | String | M | 데이터 버전 | 1 | |||
| 1-4 | contributor | String | M | 데이터 제공기관 | 경희대학교 산학협력단 | |||
| 2 | patient_info | Object | M | 환자기본정보 | ||||
| 2-1 | CDMID | String | M | 환자코드 | 8자리정수 | |||
| 2-2 | gender | String | M | 성별 | M=Male, F=Female U=Unknown |
|||
| 2-3 | age | Number | M | 연령(방문회차 Baseline 기준) | [20 ~ 200] | |||
| 3 | clinical_info_array | Array of | M | 임상정보 배열 | ||||
| Object | ||||||||
| 3-1 | date | String | M | 기준일 | yyyy.mm.dd | |||
| 3-2 | visit | String | M | 방문회차 | B: Baseline F/U : Follow up E : End |
|||
| 3-3 | basic_info | Object | O | 기본임상정보 | ||||
| 3-3-1 | Ht | Float | O | 신장 | 소수첫째자리까지 [100 ~ 250] |
|||
| 3-3-2 | Wt | Float | O | 체중 | 소수첫째자리까지 [20 ~ 200] |
|||
| 3-3-3 | BMI | Float | O | 체질량지수 | 소수첫째자리까지 | |||
| 3-3-4 | SBP | Integer | O | 수축기혈압 | 정수 [30 ~ 300] |
|||
| 3-3-5 | DBP | Integer | O | 이완기혈압 | 정수 [30 ~ 300] |
|||
| 3-3-6 | PR | Integer | O | 맥박 | 정수 [10 ~ 300] |
|||
| 3-3-7 | HbA1c | Float | O | 당화혈색소 | 소수첫째자리까지 [2 ~ 30] |
|||
| 3-3-8 | FBG | Integer | O | (공복)혈당 | 정수 [10 ~ 999] |
|||
| 3-3-9 | TC | Integer | O | 총콜레스테롤 | 정수 [10 ~ 999] |
|||
| 3-3-10 | TG | Integer | O | 중성지방 | 정수 [10 ~ 999] |
|||
| 3-3-11 | LDL | Integer | O | LDL 콜레스테롤 | 정수 [10 ~ 999] |
|||
| 3-3-12 | HDL | Integer | O | HDL 콜레스테롤 | 정수 [10 ~ 999] |
|||
| 3-3-13 | BUN | Float | O | 혈중요소질소 | 소수첫째자리까지 [0 ~ 200 ] |
|||
| 3-3-14 | Cr | Float | O | 크레아티닌 | 소수둘째자리까지 [0 ~ 99.99] |
|||
| 3-3-15 | CrCl | Float | O | 크레아티닌 청소율 | 소수둘째자리까지 | |||
| 3-3-16 | AST | Integer | O | AST | 정수 [0 ~ 999] |
|||
| 3-3-17 | ALT | Integer | O | ALT | 정수 [0 ~ 999] |
|||
| 3-3-18 | GGT | Integer | O | GGT | 정수 [0 ~ 999] |
|||
| 3-3-19 | ALP | Integer | O | ALP | 정수 [0 ~ 999] |
|||
| 3-3-20 | m_alb | Float | O | 미세알부민(뇨) | 소수첫째자리까지 [0 ~ 999.9] |
|||
| 3-4 | disease | Object | M | 질환보유정보 | ||||
| 3-4-1 | chronic | Object | M | 만성질환 | ||||
| 3-4-1-1 | DM | Boolean | M | 당뇨병 | ||||
| 3-4-1-2 | HTN | Boolean | M | 고혈압 | ||||
| 3-4-1-3 | DL | Boolean | M | 이상지질혈증 (고지혈증) |
||||
| 3-4-2 | macrovascular_ complications_1 |
Object | M | 대혈관합병증(1) 심혈관질환 |
||||
| 3-4-2-1 | MI | Boolean | M | 심근경색 | ||||
| 3-4-2-2 | IHD | Boolean | M | 허혈성 심장질환 | ||||
| 3-4-2-3 | HF | Boolean | M | 심부전 | ||||
| 3-4-2-4 | AF | Boolean | M | 심방세동 | ||||
| 3-4-3 | macrovascular_ complications_2 |
Object | M | 대혈관합병증(2) 뇌혈관질환 |
||||
| 3-4-3-1 | STR | Boolean | M | 뇌졸중 | ||||
| 3-4-4 | macrovascular_ complications_3 |
Object | M | 대혈관합병증(3) 말초혈관질환 |
||||
| 3-4-4-1 | PVD | Boolean | M | 말초혈관질환 | ||||
| 3-4-5 | microvascular_ complications | Object | M | 미세혈관합병증 | ||||
| 3-4-5-1 | RTP | Boolean | M | 망막병증 | ||||
| 3-4-5-2 | CKD | Boolean | M | 만성콩팥병 | ||||
| 3-4-5-3 | ESRD | Boolean | M | 말기신질환 | ||||
| 3-4-6 | etc | Object | M | 기타 | ||||
| 3-4-6-1 | cancer | Boolean | M | 암 | ||||
| 3-5 | medication | Object | O | 약제별 사용유무 정보 |
||||
| 3-5-1 | DM | Object | O | 당뇨병 약제 | ||||
| 3-5-1-1 | MFM | Boolean | O | Metformin | ||||
| 3-5-1-2 | SU | Boolean | O | Sulfonylurea | ||||
| 3-5-1-3 | DPP4i | Boolean | O | DPP-4 inhibitor | ||||
| 3-5-1-4 | MGTN | Boolean | O | Meglitinide | ||||
| 3-5-1-5 | TZD | Boolean | O | Thiazolidinedione | ||||
| 3-5-1-6 | SGLT2i | Boolean | O | SGLT2 inhibitor | ||||
| 3-5-1-7 | AGI | Boolean | O | a-glucosidase inhibitor | ||||
| 3-5-1-8 | ISL | Boolean | O | Insulin | ||||
| 3-5-1-9 | GLP1a | Boolean | O | GLP-1 agonist | ||||
| 3-5-2 | HT | Object | O | 고혈압 약제 | ||||
| 3-5-2-1 | ARB | Boolean | O | ARB | ||||
| 3-5-2-2 | ACEi | Boolean | O | angiotensin converting enzyme inhibitor | ||||
| 3-5-2-3 | CCB | Boolean | O | calcium-channel blocker | ||||
| 3-5-2-4 | DU | Boolean | O | Diuretics | ||||
| 3-5-2-5 | BB | Boolean | O | Beta blocker | ||||
| 3-5-3 | dyslipidemia | Object | O | 고지혈증 약제 | ||||
| 3-5-3-1 | STT | Boolean | O | Statin | ||||
| 3-5-3-2 | FR | Boolean | O | Fibrate | ||||
| 3-5-4 | antiplatelet_agent | Object | O | 항혈소판제 | ||||
| 3-5-4-1 | ASPR | Boolean | O | Aspirin | ||||
| 3-5-4-2 | CLP | Boolean | O | Clopidogrel | ||||
| 3-5-4-3 | CLSZ | Boolean | O | Cilostazol | ||||
| 3-6 | clinical_event | Object | O | 주요 임상이벤트 | ||||
| 3-6-1 | admission | Boolean | O | 최근 1년간 입원여부 | ||||
| 3-6-2 | operation | Boolean | O | 최근 1년간 수술여부 | ||||
| 3-6-3 | er_visit | Boolean | O | 최근 1년간 응급실 방문 여부 |
||||
| 구분 | 항목명 | 타입 | 필수여부 | 설명 | 범위 | 비고 | |
|---|---|---|---|---|---|---|---|
| 1 | info | Object | M | 데이터셋정보 | |||
| 1-1 | description | String | M | 데이터셋명 | "Follow-up Data of Diabetes Mellitus and Complications AI Dataset" | ||
| 1-2 | year | Integer | M | 데이터 생성년도 | 2021 | ||
| 1-3 | version | String | M | 데이터 버전 | 1 | ||
| 1-4 | contributor | String | M | 데이터 제공기관 | 닥터다이어리 | ||
| 2 | user_info | Object | M | 기본정보 | |||
| 2-1 | ID | String | M | 사용자고유ID | 24자리 문자열 | ||
| 2-2 | gender | String | M | 성별 | M=Male, F=Female, U=Unknown | ||
| 2-3 | birthyear | Integer | M | 생년 | 4자리 정수 | ||
| 2-4 | goal | Array of Strings | O | 건강관리목표 | 체중조절, 체력향상, 건강한 식생활, 혈당 관리, 운동, 여행, 기타 | ||
| 2-5 | job | String | O | 직업 | 사무직, 서비스직, 학생, 주부, 무직, 공무원, 장치-기계 관리직, 기타 | ||
| 3 | baseline | Object | M | 기저임상정보 | |||
| 3-1 | Ht | Float | O | 키(cm) | 0 이상의 수 | ||
| 3-2 | Wt | Float | O | 체중(kg) | 0 이상의 수 | ||
| 3-3 | BMI | Float | O | 체질량지수 | 0 이상의 수 | ||
| 3-4 | DM_T | String | M | 당뇨병 유형 | 1형, 2형, 임신형, 내당능, 보호자, 기타 | ||
| 3-5 | DM_OY | Integer | O | 당뇨 발병연도 | 4자리 정수 ~ [1900, 2021] | ||
| 4 | diseases | Object | M | 기저질환 | |||
| 4-1 | GI | Boolean | M | 소화기질환 | {true, false} | ||
| 4-2 | RSP | Boolean | M | 호흡기질환 | {true, false} | ||
| 4-3 | KDN | Boolean | M | 신장질환 | {true, false} | ||
| 4-4 | ENDO | Boolean | M | 내분비질환 | {true, false} | ||
| 4-5 | IM | Boolean | M | 면역질환 | {true, false} | ||
| 4-6 | HEMO | Boolean | M | 혈액질환 | {true, false} | ||
| 4-7 | HRD | Boolean | M | 유전병 | {true, false} | ||
| 5 | feeds | Array of Objects | O | 라이프로그 배열 | |||
| 5-1 | feed_date | String | O | 라이프로그 기록일 | 기록일 예시: 2017-01-04T04:50:00.000+0000 | ||
| 5-2 | food_logs | Array of Objects | O | 식사 정보 배열 | |||
| 5-2-1 | food_N | String | O | 음식 이름 | |||
| 5-2-2 | food_A | Float | O | 음식섭취량(인분) | 0 이상의 수 | ||
| 5-2-3 | kcal | Float | O | 열량섭취량(kcal) | 0 이상의 수 | ||
| 5-2-4 | CHO | Float | O | 탄수화물 섭취량(g) | 0 이상의 수 | ||
| 5-2-5 | PRO | Float | O | 단백질 섭취량(g) | 0 이상의 수 | ||
| 5-2-6 | FAT | Float | O | 지방 섭취량(g) | 0 이상의 수 | ||
| 5-2-7 | SS | Float | O | 단순당 섭취량(g) | 0 이상의 수 | ||
| 5-3 | sports_logs | Array of Objects | O | 운동 정보 배열 | |||
| 5-3-1 | sports_N | String | O | 운동 종류 | |||
| 5-3-2 | sports_kcal_per_min | Float | O | 분당운동소모열량 (kcal/분) | 0 이상의 수 | ||
| 5-3-3 | sports_A | Integer | O | 운동 시간 (분) | 0 이상의 수 | ||
| 5-4 | medicines | Array | O | 복약 정보 배열 | |||
| 5-4-1 | medicine_N | String | O | 약물 이름 | |||
| 5-4-2 | medicine_T | Arrya of Strings | O | 약물 종류 | |||
| 5-4-3 | medicine_U | String | O | 약물 정보 URL | |||
| 5-5 | glucose_T | String | O | 혈당정보 (측정시점) |
공복, 아침 식전, 아침 식후, 점심 식전, 점심 식후, 저녁 식전, 저녁 식후, 자기 전, 기타 | ||
| 5-6 | glucose_V | Integer | O | 혈당정보 (측정값) |
0 이상의 수 | ||
4. 라벨링데이터 실제예시



| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 이상열 | 02-958-8200 | rheesy@khu.ac.kr | · 사업총괄 |
| 기관명 | 담당업무 |
|---|---|
| ㈜닥터다이어리 | · 데이터수집 |
| ㈜닥터웍스 | · 데이터가공 |
| ㈜데이터웨이 | · 데이터 검수 |
| 네이버㈜ | · AI 모델 개발 |
| 담당자명 | 전화번호 | 이메일 |
|---|---|---|
| 이상열 | 02-958-8200 | rheesy@khu.ac.kr |