공공 의료데이터 상세

썸네일

만성콩팥병 및 합병증 추적관찰 임상의료 데이터

##의료/헬스케어## 헬스케어## 건강서비스##헬스케어 의료
만성콩팥병은 환자의 경과가 상당히 진행된 상태에서 치료를 시작하여 예후가 좋지 않음. 질병 악화 사전경고 및 중재 시스템 개발을 위해 8,000명 이상 10만건 이상의 학습데이터 구축
분야
헬스케어
유형
텍스트
생성 방식
안심존(온라인)
  • 구축년도 : 2022
  • 버전 : 1.1
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.1 2023-12-01 데이터 최종 개방
1.0 2023-04-30 데이터 개방 Beta Version

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정
2023-12-01 산출물 최종 공개

소개

만성콩팥병은 환자의 경과가 상당히 진행된 상태에서 치료를 시작하여 예후가 좋지 않음. 질병 악화 사전경고 및 중재 시스템 개발을 위해 8,000명 이상 10만건 이상의 학습데이터 구축

구축목적

만성콩팥병 질병 경과 및 합병증 발생 예측을 위한 위험인자 발견 및 중재효과 분석 및 AI 모델 개발

1. 데이터 구축 규모
학습데이터 명수 : 9,417 명
학습데이터 건수 : 213,328 건

 

2. 데이터 분포
총 인원 :  9417 명
총 건수 :  213238 건

 

연령대별 분
20 ~ 39 세  :  10.23 %  963 명 , 26060 건
40 ~ 59 세  :  30.04 %  2829 명 , 78707 건
60 ~ 75 세  :  37.36 %  3518 명 , 78765 건
etc  :  22.37 %  2107 명 , 29706 건

 

남녀 성비*
여자  :  41.15 %  3875 명 , 88267 건
남자  :  58.85 %  5542 명 , 124971 건

 

병기단계별 분포*
5단계  :  15.68 %  1477 명 , 57405 건
1 ~ 4단계  :  84.32 %  7940 명 , 155833 건

 

 * 첫 임상검사 등록기준일 기준

● 입원사건 및 심혈관계 질환사건 위험 예측 모델

입원사건 및 심혈관계 질환사건 위험 예측 모델


● 사구체여과율 수치 예측 모델

사구체여과율 수치 예측 모델

 

사구체여과율 수치 예측 모델
데이터 구축 후 인공지능 모델을 활용하여 입원사건 위험, 질환사건 위험, 
사구체여과율 수치 예측을 수행하여 데이터의 유효성을 판별
라벨데이터별 중요도 판별 : 이벤트 발생 여부 빈도를 분석하여 중요도 판별 이벤트 발생 빈도↓ => 이벤트 중요도↑
환자별 추적 기간 분석 : 시계열 모델에 적용이 가능한 sequence 길이를 가지는지 판별 추적 기간↑(환자별 데이터 개수↑) => 모델 적용 가능성↑
예측결과 분석을 통한 유효성 판별 : 각 모델별 예측 결과를 출력후 모델별 Metric을 산출하여 분석 Metric이 기준 성능 대비 유사하거나 높을수록 유효성↑

 

① 입원사건 및 심혈관계 질환 위험 예측 모델
  - 입원 및 질환 발생 이벤트 및 기간을 학습하여 발생 위험도를 예측
  - 구축되는 추적데이터를 활용하여 일정 기간 내 이벤트가 발생하였는지를 생존분석 모델(DeepSurv)을 통해 학습하고, 학습데이터를 기반으로 구성된 생존함수를 통하여 위험도 예측을 실행

 

② 사구체여과율 수치 예측 모델
  - 구축한 시계열 데이터를 활용하여 사구체여과율(egfr) 수치 예측
  - 환자별 추적데이터는 시계열 데이터이므로 LSTM 모델을 활용하여 학습하고, LSTM 
    모델을 통해 출력된 feature vector를 활용하여 사구체여과율 수치를 예측하는 모델
    개발

- 데이터 구성

데이터 구성
번호 항목명 설명 테이블명 비고
1 개인정보 생년월일, 성별, 거주지, 과거병력, 가족력 tb_person 시계열
2 신체계측 키, 몸무게, 허리둘레, tb_anthro 시계열
데이터 엉덩이둘레, 허리/엉덩이 비율,
  체질량지수, 수축기/이완기 혈압, 맥박
3 혈액검사 해당 환자의 혈액검사 결과 tb_blood 시계열
4 소변검사 해당 환자의 소변검사 결과 tb_urine 시계열
5 약제처방 해당 환자의 처방된 약물정보 tb_med 시계열
6 영상검사 심전도, 엑스레이, 전산화단층검사, 자기공명영상 검사, 초음파 검사를 포함한 영상검사들의 검사결과 및 판독결과지 tb_image 시계열
결과
7 예후 데이터 예측하고자 하는 주요 질환관련 예후 사건의 발생 정보 tb_outcome 시계열

 

- 어노테이션 포맷

어노테이션 포맷
No 속성명 항목 설명 Type 필수여부 작성예시
1 subno 식별자 string 필수 PT_CNH_01
2 lab_date 혈액검사일자 string 필수 1: 전남대학교병원
3 death 사망 여부 string 필수 0: 생존, 1: 사망
4 death_date 사망 일자 datetime 비필수 yyyy-mm-dd
5 admission 입원 여부 string 필수 0: 없음, 1: 있음
6 admission_date 입원 일자 datetime 비필수 yyyy-mm-dd
7 c_admission 입원 원인 string 필수 1: 기저 질환 악화
2: 감염성 질환
...
8 cv_event 심뇌혈관계질환 사건 string 필수 0: 없음, 1: 있음
발생 여부
9 cv_event_date 심뇌혈관계질환 사건 datetime 비필수 yyyy-mm-dd
발생 일자
10 c_cv_event 심뇌혈관계질환 사건 string 필수 1: revascularization
발생 원인 2: stroke
  ...
11 egfr 사구체 여과율 수치 numeric 필수 0~200
12 re_event 신장기능 악화 사건 string 필수 0: 없음, 1: 있음
발생 여부

 

- 실제 예시

실제 예시 이미지

데이터셋 구축 담당자

수행기관(주관) : 전남대학교병원
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
오태렴 교수 062-220-6296 tryeomoh@daum.net 과제 총괄 책임 / 데이터셋 설계 / 수집/ 가공 / 검수
수행기관(참여)
수행기관(참여)
기관명 담당업무
부산대학교병원 데이터셋 / 수집/ 가공 / 검수
전북대학교병원 데이터셋 / 수집/ 가공 / 검수
화순전남대학교병원 데이터셋 / 수집/ 가공 / 검수
나무기술 데이터셋 설계 / 정제
전남대학교 산학협력단 학습모델구현
나무인텔리전스 비식별화 도구 및 저작도구 개발
이루온아이앤에스 데이터셋 품질관리 / 학습모델구현