HyperAI초신경

10가지 주요 의료 데이터 세트 요약: 질문 답변/추론/실제 임상 기록/초음파 이미지/CT 이미지 포함...

特色图像

인공지능 기술이 의료 분야에 깊이 통합되고 의료 영상 기술이 끊임없이 혁신됨에 따라, 생명의 신비를 푸는 열쇠인 의료 데이터가 폭발적인 속도로 축적되고 증가하고 있습니다. 이는 기존 의학 연구의 경계를 깨고 질병 진단, 치료, 건강 관리에 혁명적인 변화를 가져왔습니다.

의학 연구가 경험 중심에서 데이터 중심으로 전환됨에 따라 기본 연구 도구의 반복 속도가 점차 느려졌습니다.의료 데이터 세트의 품질은 모델이 이론적 개념에서 임상적 실제 적용으로 전환될 수 있는지 여부를 결정하는 핵심 요소가 되었습니다.고품질의 의료 데이터는 질병 특성을 정확하게 파악할 수 있을 뿐만 아니라, 개인 맞춤형 의료 계획 수립을 위한 신뢰할 수 있는 지원을 제공할 수 있습니다.

의료 데이터 세트를 구축하는 것은 결코 간단한 사례 목록이 아닙니다.일반적인 데이터 수집과 비교해 의료 데이터 수집은 환자의 개인정보 보호와 데이터 사용 규정 준수를 보장하기 위해 윤리적 기준을 엄격히 따라야 합니다.데이터의 과학성과 효과성을 확보하기 위해서는 데이터 수집 과정을 표준화하고, 훈련 세트, 검증 세트, 테스트 세트를 합리적으로 할당하며, 질병 스펙트럼의 변화와 진단 및 치료 기술의 발전에 맞춰 새로운 데이터를 정기적으로 보완하는 역동적인 업데이트 메커니즘을 구축해야 합니다. 질병 진단, 약물 개발, 건강 예측 등 복잡한 의료 과제에 직면하여 데이터 세트를 구축할 때 다양한 분야의 요구 사항을 심층적으로 분석하고, 다중 모드 정보를 통합하고, 실제 임상 시나리오를 시뮬레이션하고, 모델 학습을 위한 실용적인 학습 샘플을 제공하는 것이 필요합니다.

요약하자면, 정밀의학 시대에 의료계 전체에서는 고품질 의료 데이터 세트에 대한 수요가 폭발적으로 증가하는 것을 경험했습니다. 이와 관련하여,HyperAI는 암, 심장, 뼈 엑스레이 등 다양한 의료 전문 분야를 포괄하여 모든 사람을 위해 매우 귀중하고 널리 사용되는 의료 데이터 세트를 수집했습니다.그들 중 일부는 명문 의대와 권위 있는 의료기관 출신입니다.

더 많은 오픈 소스 데이터 세트를 보려면 클릭하세요.

https://go.hyper.ai/g9PvL

의료 데이터 세트 요약

1 JMED 중국 실제 의료 데이터 데이터 세트

다운로드 주소:https://go.hyper.ai/4jJTa

JMED 데이터 세트는 실제 의료 데이터 분포를 기반으로 한 새로운 데이터 세트입니다. 이 데이터 세트는 2025년에 Citrus 팀에서 구축했습니다. 이 데이터 세트는 JD Health Internet Hospital에서 익명으로 이루어진 의사-환자 대화에서 파생되었으며, 표준화된 진단 워크플로를 따르는 상담을 유지하기 위해 필터링되었습니다. 최초 릴리스에는 모든 연령대(0~90세)와 다양한 전문 분야를 포괄하는 1,000개의 고품질 임상 기록이 포함되어 있습니다. 각 질문에는 21개의 응답 옵션이 있습니다.

JMED는 기존 데이터 세트와 달리 실제 임상 데이터를 면밀히 시뮬레이션하는 동시에 효율적인 모델 학습을 촉진합니다. 실제 진료 데이터를 기반으로 했지만 실제 의료 데이터에서 직접적으로 나온 것은 아니므로 연구팀은 모델 학습에 필요한 핵심 요소를 통합할 수 있습니다.

2 MedQA 의료 텍스트 질의응답 데이터세트

예상 크기:125.64MB

다운로드 주소:https://go.hyper.ai/VfIWx

MedQA 데이터 세트는 미국 의사 면허 시험(USMLE)의 스타일을 시뮬레이션한 의료 분야의 질의응답 데이터 세트입니다. 이 연구는 2020년 MIT와 화중과학기술대학의 연구팀에 의해 발표되었습니다. 관련 논문 결과는 "이 환자는 어떤 질병을 앓고 있는가? 의료 검진에서 얻은 대규모 개방형 도메인 질의응답 데이터 세트"입니다.

데이터 세트에는 각각 12,723개, 34,251개, 14,123개의 질문이 포함되어 있으며, 모델의 의학 지식을 이해하고 적용하는 능력을 평가하도록 설계되었습니다. 이는 모델 학습, 검증, 테스트에 각각 사용되는 학습 세트, 개발 세트, 테스트 세트로 구분됩니다.

3 의료 O1 추론 SFT 

의학적 추론 데이터 세트

예상 크기:21.71MB

다운로드 주소:https://go.hyper.ai/iVUWA

홍콩 중국 대학과 선전 빅데이터 연구소는 2024년에 의료 o1 추론 SFT 데이터 세트를 공개했습니다. 관련 논문 결과는 "HuatuoGPT-o1, LLM을 통한 의료 복합 추론을 향하여"입니다.

이 데이터 세트는 복잡한 의학적 추론 작업에서 성능을 개선하기 위해 HuatuoGPT-o1 대규모 의학 언어 모델을 미세 조정하도록 설계되었습니다. 데이터 세트의 구성은 GPT-4o에 의존하는데, 이는 검증 가능한 의학적 질문을 검색하고 의학적 검증 도구를 사용하여 답변을 검증함으로써 데이터의 정확성과 신뢰성을 보장합니다.

4 ROCOv2 방사선학 

다중 모달 의료 영상 데이터 세트

예상 크기:17.29GB

다운로드 주소:https://go.hyper.ai/xs4zS

ROCOv2(Radiology Object in COntext Version 2)는 방사선 영상과 관련 의료 개념 및 설명을 결합한 혁신적인 다중 모달 의료 영상 데이터 세트입니다. 이 데이터 세트는 PMC 오픈 액세스 하위 세트에서 방사선 이미지와 관련 의학 개념 및 설명을 추출하고, ROCO 데이터 세트를 기반으로 개념 추출 및 필터링을 개선합니다.

이 데이터 세트에는 다양한 임상 양식, 해부학적 영역, 방향(X선의 경우)을 포괄하는 79,789개의 방사선 이미지가 포함되어 있으며, 각 이미지에는 해당 의학적 개념 설명이 포함되어 있습니다. 이미지 주석 모델 학습, 다중 레이블 이미지 분류, 의료 분야 모델 사전 학습, 딥 러닝 모델 평가, 이미지 검색 및 캡션 생성 등에 사용할 수 있습니다.

5 MedCalc-Bench 의료 컴퓨팅 데이터 세트

예상 크기:16.04MB

다운로드 주소:https://go.hyper.ai/pDbcu

MedCalc-Bench는 대규모 언어 모델(LLM)의 의료 컴퓨팅 역량을 평가하기 위해 특별히 설계된 데이터 세트입니다. 이 책은 미국 국립의학도서관, 미국 국립보건원, 버지니아대학교 등 9개 기관이 공동으로 2024년에 출판했습니다. 관련 논문 결과는 "MEDCALC-BENCH: 의료 계산을 위한 대규모 언어 모델 평가"이며, NeurIPS 2024에서 수락되었습니다.

이 데이터 세트에는 55개의 다양한 컴퓨팅 작업을 다루는 10,055개의 교육 인스턴스와 1,047개의 테스트 인스턴스가 포함되어 있습니다. 각 예시에는 환자의 기록, 특정 임상적 가치를 계산하는 질문, 최종 답변 값, 단계별 솔루션이 포함되어 있습니다. 훈련 및 테스트 세트로 나누어 LLM을 미세 조정하여 의료 컴퓨팅 작업에서 성능을 개선하는 데 사용할 수 있습니다.

6 AI 의료 챗봇 의료 대화 데이터 세트

예상 크기:118.35MB

다운로드 주소:https://go.hyper.ai/W5OnS

이는 의료 챗봇을 실행하기 위해 설계된 실험적 데이터 세트로, 환자와 의사 간의 대화 256,916건을 담고 있습니다.

7 TCGA-ESCA 암 CT 영상

예상 크기:3.79GB

다운로드 주소:https://go.hyper.ai/eJWQt

TCGA-ESCA 암 CT 이미지는 GDC 데이터 포털에서 공개한 식도암 관련 데이터 세트입니다. 185명의 사람으로부터 5,271개의 데이터 파일을 담고 있는 이 데이터 세트는 암 진단 및 치료 과정 전체를 디지털 방식으로 추적하고 검사 결과, 처방, 효능을 디지털 아카이브 형태로 기록하는 것을 목표로 합니다.

8 TCGA-KICH 암 CT 영상 

예상 크기:1.62GB

다운로드 주소:https://go.hyper.ai/iVUWA

TCGA-KICH 암 CT 이미지는 GDC 데이터 포털에서 게시한 선종 및 선암과 관련된 데이터 세트입니다. 113명의 사람으로부터 2,325개의 데이터 파일을 담고 있는 이 데이터 세트는 암 진단 및 치료 과정 전체를 디지털 방식으로 추적하고 검사 결과, 처방, 효능을 디지털 아카이브 형태로 기록하는 것을 목표로 합니다.

9 암 CT 영상 데이터 

예상 크기:367.88MB

다운로드 주소:https://go.hyper.ai/tsMh5

CT 의료 영상 분석 튜토리얼: 대비도와 환자 연령을 적용한 암 영상 아카이브의 CT 영상 데이터 세트는 Kaggle에서 2016년에 발표한 암 CT 영상 데이터 세트입니다. 관련 논문은 "암 게놈 아틀라스 폐선암 [TCGA-LUAD] 컬렉션의 방사선학 데이터"입니다.

여기에는 환자 연령과 CT 영상 데이터 간의 연관성을 조사하고 비교하기 위해 69명의 환자에 대한 475건의 CT 영상이 포함되어 있으며, TCGA-LUAD 폐암 CT 영상 데이터베이스의 일부입니다.

10 MURA 뼈 X선 데이터 세트 

예상 크기:6.74GB

다운로드 주소:https://go.hyper.ai/DlGYH

MURA 데이터 세트는 X선을 통해 뼈가 정상인지 여부를 판별하는 것을 목표로 하는 대용량 뼈 X선 데이터 세트입니다. 이 데이터 세트는 2017년 스탠포드 대학에서 공개되었습니다. 관련 논문은 "MURA: 근골격계 방사선 사진에서 이상 탐지를 위한 대규모 데이터 세트"입니다.

출판사는 이 데이터 세트를 통해 의료 영상 기술이 크게 발전하여 방사선과 전문의가 부족한 지역의 의료 서비스가 개선되고 전문가 수준의 진단이 가능해지기를 기대합니다.