공공 의료데이터 상세

썸네일

갑상선암 진단 의료 영상

##조기 진단## 딥러닝 인공지능## 영상데이터## 이미지데이터## 갑상선 초음파## Neck CT## 병리 이미지## 양성## 악성##헬스케어 건강서비스##헬스케어 의료
갑상선암 진단 및 치료 과정에서 필요한 영상‧이미지 데이터
분야
헬스케어
유형
비디오,이미지
생성 방식
안심존(온라인)
  • 구축년도 : 2020
  • 버전 : 1.0
AI-HUB

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.0 2021-06-30 데이터 변경 원천데이터 수정

데이터 히스토리

데이터 히스토리
일자 변경내용 비고
2025-01-06 데이터셋 변경 메타데이터 데이터 구축량 수정

소개

갑상선암 진단 및 치료 과정에서 필요한 영상‧이미지 데이터
- 데이터 영역 : 헬스케어
- 데이터 유형 : 비디오 , 이미지 
- 구축년도 : 2020년
- 구축량 : 268,002

구축목적

의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
따라서 갑상선암 진단에 활용할 수 있는 3종류의 갑상선암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.

구축 내용 및 제공 데이터량

  • 갑상선암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.

     

    구축 내용 및 제공 데이터량 구조테이블
    유형 구축 건수(건)
    분류 환자수 영상 수
    초음파 양성 1.040명 25,790장
    악성 3,960명 3,116,128명
    Neck CT 전이있음 232명 45,143장
    전이없음 270명 56,030장
    병리 이미지 양성 1,585명 2,731장
    악성 1,190명 2,111장

데이터 변경이력

데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.30 데이터 최초 개방  

구축 목적

  • 의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
  • 따라서 갑상선암 진단에 활용할 수 있는 3종류의 갑상선암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.

활용 분야

  • 의료 영상 판독 보조 소프트웨어 산업

소개

  • 갑상선암 데이터셋은 갑상선암 진단에 가장 많이 활용되는 3가지 의료 이미지(갑상선 초음파, Neck CT, 병리 이미지)로 구성되어 있음
  • 갑상선암의 종양 감별을 위해 갑상선 초음파의 양/악성 데이터셋을 구축하였으며, 전이 유무 판단을 할 수 있는 갑상선 CT(Neck CT), 갑상선암의 세포병리학적 진단 기준인 베데스다 클래스를 활용하여 진단한 병리 이미지로 구성되어 있음

구축 내용 및 제공 데이터량

  • 갑상선암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.

     

    구축 내용 및 제공 데이터량 구조테이블
    유형 구축 건수(건)
    분류 환자수 영상 수
    초음파 양성 1.040명 25,790장
    악성 3,960명 3,116,128명
    Neck CT 전이있음 232명 45,143장
    전이없음 270명 56,030장
    병리 이미지 양성 1,585명 2,731장
    악성 1,190명 2,111장

대표도면

대표도면 표
모달리티 갑상선암 영상데이터 데이터
포맷
어노테이션
항목
메타데이터
JSON 형식
갑상선
초음파
갑상선암 진단 의료 영상-대표도면_1_갑상선암 영상데이터(갑상선 초음파) DICOM 단일 결절 부위
Bounding Box
체크
· DICOM 파일(비식별화 후)
 - age, sex, manufacture, machine name
· Json 파일
 - 환자:json = 1:n
· Excel 파일
- 양성/악성정보 비식별 환자ID, 나이, 성별
Nect CT 갑상선암 진단 의료 영상-대표도면_2_갑상선암 영상데이터(Nect CT) DICOM 단일 결절 부위
Bounding Box
체크
· DICOM 파일 (비식별화 후)
 - age, sex, matrix size, machine name, slice thickness, series description
· Json 파일    - 환자:json = 1:n
· Excel 파일 - 전이/비전이 정보, 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
병리
이미지
갑상선암 진단 의료 영상-대표도면_3_갑상선암 영상데이터(병리 이미지) Tif 세포 cluster
Polygon
Segmentation
· Tif 파일
 - Scan machine name, scanning parameter, scanner manufacture
· Json 파일
 - 환자:json = 1:n
· Excel 파일
 - 양성/악성정보,
비식별 환자ID, 나이, 성별

필요성

  • 갑상선암 데이터셋은 의료진이 갑상선암 환자를 진단할 때 사용하는 대표적인 영상 3가지(갑상선 초음파, Neck CT, 병리 이미지) 카테고리로 구성
  • 현재 인공지능 기술은 오픈소스 활용 등으로 다양하게 발전하고 있으나, 의료 데이터는 의료 정보의특수성으로 확보가 어려움
  • 따라서, 갑상선암 진단을 위한3가지 종류의 데이터셋을 통해 의료 인공지능 기술 발전을 도모하고 인공지능 진단 모델을
  • 활용하여 의료진의 종합적이고 효율적인 진단을 통한 의료 서비스의 질적 향상을 기대함

데이터 구조

  • 데이터구성
    데이터 구성 표
    모달리티 super
    category
    super
    category_
    name
    grp_id grp_name id name
    초음파 ULS Ultra
    sound
    1 악성 1 악성_K-TIRADS_1
    2 악성_K-TIRADS_2
    3 악성_K-TIRADS_3
    4 악성_K-TIRADS_4
    5 악성_K-TIRADS_5
    2 양성 6 양성_K-TIRADS_1
    7 양성_K-TIRADS_2
    8 양성_K-TIRADS_3
    9 양성_K-TIRADS_4
    10 양성_K-TIRADS_5
    Neck
    CT
    NCT Neck
    CT
    1 악성 1 악성_림프절
    2 양성 2 양성_림프절
    병리 PTH Pathology 1 악성 1 malignant(PTC)
    2 malignant
    (medullary_ca)
    3 malignant
    (anaplastic)
    4 malignant
    (etc_type)
    2 양성 5 benign
    6 atypical
    3 기타 7 cluster_box
    1. 1) 갑상선 초음파
      갑상선초음파 데이터구성 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 supercategory 슈퍼카테고리 Y string 3 ULS
      2 grp_id 그룹 아이디 Y number   1~2
      3 grp_name 그룹 이름 Y string 2 1 : 악성
      2 : 양성
      4 id 아이디 Y number   1~10
      5 name 이름 Y string 6 1 :
      악성_K-TIRADS_1
      2 :
      악성_K-TIRADS_2
      3 :
      악성_K-TIRADS_3
      4 :
      악성_K-TIRADS_4
      5 :
      악성_K-TIRADS_5
      6 :
      양성_K-TIRADS_1
      7 :
      양성_K-TIRADS_2
      8 :
      양성_K-TIRADS_3
      9 :
      양성_K-TIRADS_4
      10 :
      양성_K-TIRADS_5
    2. 2) 갑상선 CT
      갑상선 CT 데이터구성 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 supercategory 슈퍼카테고리 Y string 3 NCT
      2 grp_id 그룹 아이디 Y number   1~2
      3 grp_name 그룹 이름 Y string 2 1 : 악성
      2 : 양성
      4 id 아이디 Y number   1~2
      5 name 이름 Y string 6 1 : 악성_림프절
      2 : 양성_림프절
    3. 3) 병리 이미지
      병리 이미지 데이터구성 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 supercategory 슈퍼카테고리 Y string 3 PTH
      2 grp_id 그룹 아이디 Y number   1~3
      3 grp_name 그룹 이름 Y string 2 1 : 악성
      2 : 양성
      3 : 기타
      4 id 아이디 Y number   1~7
      5 name 이름 Y string 30 1 : malignant(PTC)
      2 : malignant(medullary_ca)
      3 : malignant(anaplastic)
      4 : malignant(etc_type)
      5 : benign
      6 : atypical
      7 : cluster_box
  • JSON image 포맷
    1. 1) 갑상선 초음파 및 갑상선 CT
      갑상선 초음파 및 CT JSON image 포맷 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 id 이미지 아이디 Y number   Default=1
      2 file_name 이미지 파일명 Y string 50 영상이미지
      파일명
      3 patient_id 비식별
      환자아이디
      Y string 7 비식별
      환자아이디
      4 series_id 시리즈 번호 Y string 7 환자의
      영상촬영 순번
      5 image_id 이미지 번호 Y string 7 시리즈의
      이미지 순번
      6 width 가로길이 Y number   1~9999999
      7 height 세로길이 Y number   1~9999999
      8 date_
      captured
      생성날짜 Y string 20 yyyy-mm-dd
      hh-mm-ss
      9 modality 모달리티 Y string 3 NCT : Neck CT
      ULS : Ultrasound
      10 manufacturer 검사장비 Y string 300 영상촬영
      장비 제조사
      11 manufacturer
      ModelName
      검사장비 모델 Y string 300 영상촬영
      장비 모델명
    2. 2) 갑상선 병리 이미지
      갑상선 병리 이미지 JSON image 포맷 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 id 이미지 아이디 Y number   Default=1
      2 file_name 이미지 파일명 Y string 50 영상이미지
      파일명
      3 patient_id 비식별
      환자아이디
      Y string 7 비식별
      환자아이디
      4 slide_id 슬라이드 번호 Y string 3 조직 부위의 번호
      5 scene_id 씬 번호 Y string 3 슬라이드의
      씬 순번
      6 width 이미지 가로길이 Y number   1~9999999
      7 height 이미지 세로길이 Y number   1~9999999
      8 modality 모달리티 Y string 3 PTH : Pathology
      9 microscope 현미경 Y string 300 현미경 이름
      10 imaging_
      device
      이미지 장비 Y string 300 이미지 처리 장비
      11 camera_
      adapter
      카메라 렌즈 Y string 300 렌즈모델명
  • JSON 어노테이션 포맷
    JSON 어노테이션 포맷 표
    No 영문명 한글명 필수여부 타입 길이 비고
    1 id 어노테이션
    아이디
    Y number   어노테이션
    아이디
    2 image_id 이미지 아이디 Y number   시리즈의
    이미지 순번
    3 category_id 카테고리
    아이디
    Y number   1,2,3
    5 iscrowd 어노테이션
    싱글/멀티 유형
    Y number   0 : 싱글, 1 : 멀티
    6 area 어노테이션
    넓이
    Y number   bbox를 활용한 넓이
    7 bbox 어노테이션
    최대 Box 좌표
    Y array   [x1, y1, x2, y2]
    x,y는 float형식
    8 toolname 어노테이션
    툴 유형
    Y string 300 어노테이션 툴명
    9 segmentation 어노테이션
    좌표정보
    Y array   [x1, y1, x2, y2,
    ...., xn, yn]
    x,y는 float형식
    10 width 세그먼트
    가로길이
    Y number   픽셀 길이
    11 height 세그먼트
    세로길이
    Y number   픽셀 길이

데이터셋 구축 담당자

수행기관(주관) : 에이아이트릭스
수행기관(주관)
책임자명 전화번호 대표이메일 담당업무
유진규 02-569-5507 contact@aitrics.com · 데이터구축 총괄 · 갑상선암 데이터셋을 활용한 AI모델 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무
고신대복음병원 · 원본 데이터 제공 및 데이터 어노테이션
비알프레임 · 데이터 익명화 작업 및 데이터 어노테이션 툴 개발
데이터 관련 문의처
데이터 관련 문의처
담당자명 전화번호 이메일
백원중(에이아이트릭스) 02-569-5507 contact@aitrics.com