공공 의료데이터 상세

썸네일

폐암 진단 의료 영상

##조기 진단## 딥러닝 인공지능## 영상데이터## 이미지데이터## X-Ray 데이터셋## 흉부 CT 데이터셋## PET-CT 데이터셋## 양성## 악성
폐암 진단 및 치료 과정에서 필요한 영상·이미지 데이터
분야
헬스케어
유형
비디오,이미지
생성 방식
안심존(온라인)
  • 구축년도 : 2020
  • 버전 : 1.0
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.0 2021-06-30 데이터 개방 데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 정보 수정

소개

폐암 진단 및 치료 과정에서 필요한 영상·이미지 데이터
- 데이터 영역 : 헬스케어
- 데이터 유형 : 비디오 , 이미지 
- 구축년도 : 2020년
- 구축량 : 2,135,012

구축목적

의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
따라서 폐암 진단에 활용할 수 있는 3종류의 폐암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.

구축 내용 및 제공 데이터량

  • 폐암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.
    구축 내용 및 제공 데이터량 구조테이블
    유형 구축 건수(건)
    분류 환자수 영상 수
    X-ray 양성 500명 500장
    악성 3,000명 3,000장
    정상 10,000명 10,000장
    흉부 CT 양성 1,000명 160,000장
    악성 2,500명 375,000장
    정상 1,000명 180,000장
    PET/CT 양성 500명 147,000장
    악성 3,000명 891,000장
    정상 1,000명 457,000장

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.30 데이터 최초 개방  

구축 목적

  • 의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
  • 따라서 폐암 진단에 활용할 수 있는 3종류의 폐암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.

활용 분야

  • 의료 영상 판독 보조 소프트웨어 산업

소개

  • 폐암 데이터셋은 폐암 진단에 가장 많이 활용되는 3가지 의료 이미지(흉부 X-ray, 흉부 CT, PET CT)로 구성되어 있음
  • 폐암의 종양 감별을 위해 각 흉부 이미지 모달리티마다 양성, 악성, 정상 케이스를 포함한 데이터셋을 구축하였음

구축 내용 및 제공 데이터량

  • 폐암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.
    구축 내용 및 제공 데이터량 구조테이블
    유형 구축 건수(건)
    분류 환자수 영상 수
    X-ray 양성 500명 500장
    악성 3,000명 3,000장
    정상 10,000명 10,000장
    흉부 CT 양성 1,000명 160,000장
    악성 2,500명 375,000장
    정상 1,000명 180,000장
    PET/CT 양성 500명 147,000장
    악성 3,000명 891,000장
    정상 1,000명 457,000장

대표도면

대표도면 표
모달리티 폐암 영상데이터 데이터 포맷 어노테이션 항목 메타데이터 JSON 형식
X-ray 폐암 진단 의료 영상-대표도면-X-ray 예시 이미지 DICOM 단일 결절 부위
Bounding Box
체크
· DICOM 파일
· (비식별화 후)
· age, sex, machine name
· Json 파일 - 환자:json = 1:1
· Excel 파일
   -양성/악성정보 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
   (악성의 경우만 병리결과 수집)
CT 폐암 진단 의료 영상-대표도면-CT 예시 이미지 DICOM 단일 결절 부위
Polygon
체크
· DICOM 파일 (비식별화 후)
· age, sex, matrix size, machine name, slice thickness, series
   description
· Json 파일 - 환자:json = 1:n
· Excel 파일 - 양성/악성정보 비식별 환자ID, 나이, 성별, 병리결과,
   흡연력
   (악성의 경우만 병리결과 수집)
PET CT 폐암 진단 의료 영상-대표도면-PET CT 예시 이미지 DICOM 폐 결절 및
임파선 부위
Bounding box 체크
· DICOM 파일 (비식별화 후)
   age, sex, machine name
· Json 파일 - 환자:json = 1:1
· Excel 파일
   - 양성/악성정보 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
   (악성의 경우만 병리결과 수집)

필요성

  • 폐암 데이터셋은 의료진이 폐암 환자를 진단할 때 사용하는 대표적인 영상 3가지(흉부 X-ray, CT,PET CT) 카테고리로 구성
  • 현재 인공지능 기술은 오픈소스 활용 등으로 다양하게 발전하고 있으나, 의료 데이터는 의료 정보의특수성으로 확보가 어려움
  • 따라서, 폐암 진단을 위한3가지 종류의 데이터셋을통해 의료 인공지능 기술 발전을 도모하고 인공지능 진단 모델을
  • 활용하여 의료진의 종합적이고 효율적인 진단을 통한 의료 서비스의 질적 향상을 기대함

데이터 구조

  • 데이터 구성
    데이터 구성 테이블
    모달리티 supercategory supercategory_name grp_id grp_name id name
    Chest CT CCT Chest CT 1 악성 1 악성
    2 전이성_병변
    2 양성 3 양성
    4 섬유화반흔
    5 폐경화
    6 기흉
    7 무기폐
    8 흉막_삼출
    9 폐섬유화
    X-ray XRY X-ray 1 악성 1 악성
    2 전이성_병변
    2 양성 3 양성
    4 섬유화반흔
    5 폐경화
    6 기흉
    7 무기폐
    8 흉막_삼출
    9 폐섬유화
    PET-CT PCT PET-CT 1 악성 1 악성_림프절
    2 폐_병변_악성
    2 양성 3 양성_림프절
    4 폐_병변_양성
  • X-ray
    x-ray테이블
    No 영문명 한글명 필수여부 타입 길이 비고
    1 supercategory 슈퍼카테고리 Y string 3 XRY
    2 grp_id 그룹 아이디 Y number   1~2
    3 grp_name 그룹 이름 Y string 2 1 : 악성
    2 : 양성
    4 id 아이디 Y number   1~9
    5 name 이름 Y string 10 1 : 악성
    2 : 전이성_병변
    3 : 양성
    4 : 섬유화반흔
    5 : 폐경화
    6 : 기흉
    7 : 무기폐
    8 : 흉막_삼출
    9 : 폐섬유화
  • Chest CT
    Chest CT구성표
    No 영문명 한글명 필수여부 타입 길이 비고
    1 supercategory 슈퍼카테고리 Y string 3 PCT
    2 grp_id 그룹 아이디 Y number   1~2
    3 grp_name 그룹 이름 Y string 2 1 : 악성
    2 : 양성
    4 id 아이디 Y number   1~4
    5 name 이름 Y string 10 1 : 악성_림프절
    2 : 폐_병변_악성
    3 : 양성_림프절
    4 : 폐_병변_양성
  • JSON image 포맷
    JSON image 포맷 표
    No 영문명 한글명 필수여부 타입 길이 비고
    1 id 이미지 아이디 Y number   Default=1
    2 file_name 이미지 파일명 Y string 50 영상이미지 파일명
    3 patient_id 비식별환자아이디 Y string 7 비식별 환자 아이디
    4 series_id 시리즈 번호 Y string 7 환자의 영상촬영 순번
    5 image_id 이미지 번호 Y string 7 시리즈의 이미지 순번
    6 width 가로길이 Y number   1~9999999
    7 height 세로길이 Y number   1~9999999
    8 date_captured 생성날짜 Y string 20 yyyy-mm-dd hh-mi-ss
    9 modality 모달리티 Y string 3 CCT: Chest CT
    PCT: PET CT
    XRY: X-ray
    10 manufacturer 검사장비 Y string 300 영상촬영 장비 제조사
    11 manufacturerModelName 검사장비 모델 Y string 300 영상촬영 장비 모델명
  • JSON 어노테이션 포맷
    JSON 어노테이션 포맷 표
    No 영문명 한글명 필수여부 타입 길이 비고
    1 id 어노테이션 아이디 Y number   어노테이션 아이디
    2 image_id 이미지 아이디 Y number    시리즈의 이미지 순번
    3 category_id 카테고리 아이디 Y number   1,2,3
    5 iscrowd 어노테이션 싱글/멀티 유형 Y number    0: 싱글,
    1: 멀티
    6 area 어노테이션 넓이 Y number v  bbox를 활용한 넓이
    7 bbox 어노테이션 최대Box 좌표 Y array    [x1, y1, x2, y2]
    x, y는 float형식
    8 toolname 어노테이션 툴 유형 Y string 300 어노테이션툴명 
    9 segmentation 어노테이션 좌표정보 Y array    [x1, y1, x2, y2, ….., xn, yn]
    x, y는 float형식
    10 width 세그먼트 가로길이 Y number   픽셀 길이 
    11 height 세그먼트 세로길이 Y number    픽셀 길이

데이터셋 구축 담당자

수행기관(주관) : 에이아이트릭스
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
유진규 02-569-5507 contact@aitrics.com · 데이터구축 총괄
수행기관(참여)
수행기관(참여)
기관명 담당업무
고신대복음병원 · 원본 데이터 제공 및 데이터 어노테이션
비알프레임 · 데이터 익명화 작업 및 데이터 어노테이션 툴 개발
에이엠스퀘어 · 폐암 데이터셋을 활용한 AI모델 개발
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
백원중(에이아이트릭스) 02-569-5507 contact@aitrics.com