| 버전 | 일자 | 변경내용 | 비고 |
|---|---|---|---|
| 1.1 | 2023-12-01 | 데이터 최종 개방 | |
| 1.0 | 2023-04-30 | 데이터 개방 | Beta Version |
| 일자 | 변경내용 | 비고 |
|---|---|---|
| 2025-01-06 | 데이터셋 변경 | 메타데이터 데이터 구축량 정보 수정 |
| 2023-12-01 | 산출물 최종 공개 |
만성콩팥병은 환자의 경과가 상당히 진행된 상태에서 치료를 시작하여 예후가 좋지 않음. 질병 악화 사전경고 및 중재 시스템 개발을 위해 8,000명 이상 10만건 이상의 학습데이터 구축
만성콩팥병 질병 경과 및 합병증 발생 예측을 위한 위험인자 발견 및 중재효과 분석 및 AI 모델 개발
| 데이터 영역 | 헬스케어 | 데이터 유형 | 텍스트 |
|---|---|---|---|
| 데이터 형식 | csv | 데이터 출처 | 대학병원 전자 의무 기록 |
| 라벨링 유형 | 분류 태그(시계열 데이터) | 라벨링 형식 | csv |
| 데이터 활용 서비스 | 임상의사결정 지원 | 데이터 구축년도/ 데이터 구축량 |
2022년/213,238 |
1. 데이터 구축 규모
학습데이터 명수 : 9,417 명
학습데이터 건수 : 213,328 건
2. 데이터 분포
총 인원 : 9417 명
총 건수 : 213238 건
연령대별 분
20 ~ 39 세 : 10.23 % 963 명 , 26060 건
40 ~ 59 세 : 30.04 % 2829 명 , 78707 건
60 ~ 75 세 : 37.36 % 3518 명 , 78765 건
etc : 22.37 % 2107 명 , 29706 건
남녀 성비*
여자 : 41.15 % 3875 명 , 88267 건
남자 : 58.85 % 5542 명 , 124971 건
병기단계별 분포*
5단계 : 15.68 % 1477 명 , 57405 건
1 ~ 4단계 : 84.32 % 7940 명 , 155833 건
* 첫 임상검사 등록기준일 기준
● 입원사건 및 심혈관계 질환사건 위험 예측 모델

● 사구체여과율 수치 예측 모델

| 데이터 구축 후 인공지능 모델을 활용하여 입원사건 위험, 질환사건 위험, | |
|---|---|
| 사구체여과율 수치 예측을 수행하여 데이터의 유효성을 판별 | |
| 라벨데이터별 중요도 판별 : 이벤트 발생 여부 빈도를 분석하여 중요도 판별 | 이벤트 발생 빈도↓ => 이벤트 중요도↑ |
| 환자별 추적 기간 분석 : 시계열 모델에 적용이 가능한 sequence 길이를 가지는지 판별 | 추적 기간↑(환자별 데이터 개수↑) => 모델 적용 가능성↑ |
| 예측결과 분석을 통한 유효성 판별 : 각 모델별 예측 결과를 출력후 모델별 Metric을 산출하여 분석 | Metric이 기준 성능 대비 유사하거나 높을수록 유효성↑ |
① 입원사건 및 심혈관계 질환 위험 예측 모델
- 입원 및 질환 발생 이벤트 및 기간을 학습하여 발생 위험도를 예측
- 구축되는 추적데이터를 활용하여 일정 기간 내 이벤트가 발생하였는지를 생존분석 모델(DeepSurv)을 통해 학습하고, 학습데이터를 기반으로 구성된 생존함수를 통하여 위험도 예측을 실행
② 사구체여과율 수치 예측 모델
- 구축한 시계열 데이터를 활용하여 사구체여과율(egfr) 수치 예측
- 환자별 추적데이터는 시계열 데이터이므로 LSTM 모델을 활용하여 학습하고, LSTM
모델을 통해 출력된 feature vector를 활용하여 사구체여과율 수치를 예측하는 모델
개발
- 데이터 구성
| 번호 | 항목명 | 설명 | 테이블명 | 비고 |
|---|---|---|---|---|
| 1 | 개인정보 | 생년월일, 성별, 거주지, 과거병력, 가족력 | tb_person | 시계열 |
| 2 | 신체계측 | 키, 몸무게, 허리둘레, | tb_anthro | 시계열 |
| 데이터 | 엉덩이둘레, 허리/엉덩이 비율, | |||
| 체질량지수, 수축기/이완기 혈압, 맥박 | ||||
| 3 | 혈액검사 | 해당 환자의 혈액검사 결과 | tb_blood | 시계열 |
| 4 | 소변검사 | 해당 환자의 소변검사 결과 | tb_urine | 시계열 |
| 5 | 약제처방 | 해당 환자의 처방된 약물정보 | tb_med | 시계열 |
| 6 | 영상검사 | 심전도, 엑스레이, 전산화단층검사, 자기공명영상 검사, 초음파 검사를 포함한 영상검사들의 검사결과 및 판독결과지 | tb_image | 시계열 |
| 결과 | ||||
| 7 | 예후 데이터 | 예측하고자 하는 주요 질환관련 예후 사건의 발생 정보 | tb_outcome | 시계열 |
- 어노테이션 포맷
| No | 속성명 | 항목 설명 | Type | 필수여부 | 작성예시 |
|---|---|---|---|---|---|
| 1 | subno | 식별자 | string | 필수 | PT_CNH_01 |
| 2 | lab_date | 혈액검사일자 | string | 필수 | 1: 전남대학교병원 |
| 3 | death | 사망 여부 | string | 필수 | 0: 생존, 1: 사망 |
| 4 | death_date | 사망 일자 | datetime | 비필수 | yyyy-mm-dd |
| 5 | admission | 입원 여부 | string | 필수 | 0: 없음, 1: 있음 |
| 6 | admission_date | 입원 일자 | datetime | 비필수 | yyyy-mm-dd |
| 7 | c_admission | 입원 원인 | string | 필수 | 1: 기저 질환 악화 |
| 2: 감염성 질환 | |||||
| ... | |||||
| 8 | cv_event | 심뇌혈관계질환 사건 | string | 필수 | 0: 없음, 1: 있음 |
| 발생 여부 | |||||
| 9 | cv_event_date | 심뇌혈관계질환 사건 | datetime | 비필수 | yyyy-mm-dd |
| 발생 일자 | |||||
| 10 | c_cv_event | 심뇌혈관계질환 사건 | string | 필수 | 1: revascularization |
| 발생 원인 | 2: stroke | ||||
| ... | |||||
| 11 | egfr | 사구체 여과율 수치 | numeric | 필수 | 0~200 |
| 12 | re_event | 신장기능 악화 사건 | string | 필수 | 0: 없음, 1: 있음 |
| 발생 여부 |
- 실제 예시

| 책임자명 | 전화번호 | 대표이메일 | 담당업무 |
|---|---|---|---|
| 오태렴 교수 | 062-220-6296 | tryeomoh@daum.net | 과제 총괄 책임 / 데이터셋 설계 / 수집/ 가공 / 검수 |
| 기관명 | 담당업무 |
|---|---|
| 부산대학교병원 | 데이터셋 / 수집/ 가공 / 검수 |
| 전북대학교병원 | 데이터셋 / 수집/ 가공 / 검수 |
| 화순전남대학교병원 | 데이터셋 / 수집/ 가공 / 검수 |
| 나무기술 | 데이터셋 설계 / 정제 |
| 전남대학교 산학협력단 | 학습모델구현 |
| 나무인텔리전스 | 비식별화 도구 및 저작도구 개발 |
| 이루온아이앤에스 | 데이터셋 품질관리 / 학습모델구현 |