Command Palette
Search for a command to run...
데이터셋 모음 | 의료 영상/임상 데이터부터 세포 지도/의학 Q&A까지, 다양한 질병 시나리오를 포괄하는 10가지 주요 데이터셋

인공지능이 의료 분야에 빠르게 침투함에 따라, 고품질 데이터 세트는 모델 성능 향상 및 응용 프로그램 구현을 위한 핵심 기반으로 점차 자리 잡고 있습니다.의료 영상 인식부터 임상 의사 결정 지원, 더 나아가 생물학적 메커니즘 분석에 이르기까지,데이터의 유형, 규모 및 주석 정확도는 모델의 기능 상한선과 적용 범위를 직접적으로 결정합니다.
전반적인 개발 관점에서 볼 때, 의료 데이터 세트는 다중 모드화 및 정교화 방향으로 병렬적인 진화를 보이는 특징을 나타냅니다.한편으로는,X선, CT 스캔, MRI 스캔과 같은 의료 영상 데이터는 여전히 주류를 이루고 있습니다. 이러한 데이터는 표준화된 구조와 명확한 주석을 가지고 있어 컴퓨터 비전 모델의 학습 및 평가에 적합합니다.반면에,임상 지표, 질병 위험 예측, 약물 반응, 심지어 단일 세포 시퀀싱을 포함한 더욱 복잡한 데이터 유형이 빠르게 증가함에 따라 AI는 "이미지 인식"에서 더욱 심층적인 수준의 진단 지원 및 생명 과학 연구로 발전하고 있습니다.
이 기사에서 선정한 10개의 의료 관련 데이터 세트는 이러한 추세의 한 측면을 보여줍니다.이 책은 다양한 질병 시나리오와 연구 방향을 다룹니다.여기에는 특정 질병과 관련된 영상 또는 임상 데이터뿐만 아니라 최첨단 생물정보학 및 약물 관련 연구도 포함됩니다.
이러한 데이터 세트에 대한 체계적인 검토 결과, 표준화되고 구조화된 데이터는 모델 학습 및 평가에 여전히 필수적인 요소인 반면, 다양한 모달리티와 여러 소스의 데이터를 융합하는 능력은 모델 성능 및 일반화 능력에 영향을 미치는 핵심 요소로 부상하고 있음을 알 수 있습니다. 이러한 데이터 자원에 대한 심층 분석은 의료 AI의 현재 개발 우선순위와 진화 방향을 더 잘 이해하는 데에도 도움이 됩니다.
오랫동안,HyperAI는 다양한 분야의 데이터 세트를 지속적으로 수집하고 정리합니다.이 플랫폼은 의료 영상, 임상 데이터, 의료 분야의 생물정보학 등 다양한 영역을 포괄하는 고품질 오픈 소스 데이터 세트를 제공할 뿐만 아니라, 전 세계 연구원과 개발자들이 인공지능, 자율 주행, OCR, 멀티모달 이해, 지능형 질의응답 등 다양한 작업/영역에서 데이터를 검색하고 활용할 수 있는 통합 데이터 검색 및 활용 포털을 제공합니다.
더욱 고품질의 데이터 세트:
역사적 팬데믹 및 전염병 전 세계 역사적 전염병 데이터 세트
* 온라인에서 사용하세요:
역사적 팬데믹 및 전염병 데이터 세트는 전 세계 역사상 주요 팬데믹 사건을 다루는 데이터 세트로, 분석에 바로 활용할 수 있는 자료를 제공하도록 설계되었습니다. 이 데이터 세트는 서기 165년의 안토니우스 역병부터 2023년의 코로나19 및 원숭이두창에 이르기까지 모든 시대, 지역 및 병원체 유형을 포괄하는 50개의 주요 팬데믹 사건을 포함합니다.
폐암 임상 폐암 임상 데이터 세트
* 온라인에서 사용하세요:
폐암 임상 데이터 세트는 세계보건기구(WHO)의 6개 지역 60개국을 대상으로 2015년부터 2025년까지 수집된 1,500건의 환자 기록을 포함하고 있습니다.
이 데이터 세트는 폐암에 대한 상세한 임상, 인구 통계, 생활 습관, 유전 및 진단 정보를 제공합니다. 데이터는 WHO 팩트 시트와 세계 암 연구 통계(GLOBOCAN 2020)에서 가져왔으며, 탐색적 데이터 분석(EDA), 머신러닝 분류, 생존 분석, 지리적 추세 분석 및 공중 보건 연구에 적합합니다.
약물 부작용 모의 약물 부작용 데이터 세트
* 온라인에서 사용하세요:
이 데이터 세트는 약물 부작용(ADR)에 대한 약물감시 보고서를 모방하도록 설계되었으며, 약물 안전성 모니터링 분야의 연구, 머신러닝 실험 및 알고리즘 개발을 지원하는 것을 목표로 합니다. 사례 안전성 보고서(ICSR)는 FDA FAERS 및 EMA EudraVigilance와 같은 실제 약물감시 시스템에서 영감을 받아 인위적으로 생성되었습니다.
이 데이터 세트는 특히 심각한 이상반응의 희귀성과 불균형을 강조합니다. 대부분의 보고는 경미한 반응인 반면, 심각하고 치명적인 결과는 상대적으로 드뭅니다(심각/치명적 총계는 약 4~51 TP3T). 이는 시판 후 감시에서 흔히 나타나는 보고 누락 및 심각도 분포 편향을 반영합니다.
범암 scRNA-Seq 암 단일 세포 전사 아틀라스 데이터 세트
* 온라인에서 사용하세요:
이 데이터 세트는 건강한 면역 상태, 혈액암(골수성 백혈병), 고형암 미세환경(흑색종)의 세 가지 생물학적 상태를 포괄하는 7,930개의 단일 세포에서 얻은 전사체 발현 데이터를 포함합니다. 본 연구는 알고리즘 성능 평가 및 방법론 비교, 다중 코호트 배치 효과 보정, 면역 소진 상태 분석, 그리고 다양한 종양 유형에 적용 가능한 바이오마커 발굴을 위한 기준점을 제공하기 위해 여러 코호트를 통합한 단일 세포 분석 벤치마크를 구축하는 것을 목표로 합니다.
사물-fMRI 기능적 자기공명영상 데이터 세트
* 온라인에서 사용하세요:
THINGS-fMRI는 미국 국립보건원(NIH) 산하 국립정신건강연구소, 독일 막스 플랑크 인간인지뇌과학연구소, 기센 의과대학 등 여러 기관이 공동으로 개발한 고밀도 기능적 자기공명영상(fMRI) 데이터셋으로, 사물 인지 연구에 사용됩니다. 이 데이터셋은 현실 세계의 사물에 대한 인간 두뇌의 시각적 및 의미적 표현 방식을 체계적으로 규명하는 것을 목표로 합니다.
이 데이터셋은 THINGS 데이터베이스에 속하며, 1,854개의 객체 개념과 자연 장면 속 객체 이미지 26,107개를 수동으로 선택하고 레이블링한 데이터를 포함합니다. fMRI 실험에서 피험자들은 스캔 동안 THINGS 이미지 데이터베이스의 객체 이미지를 보았고, 전체 뇌의 BOLD 신호를 기록하여 뇌 내 객체의 공간적 표현 분포를 분석했습니다.
세 명의 참가자가 총 12회의 스캔 세션을 완료했으며, 720개의 객체 범주를 포괄하는 8,740개의 고유 이미지를 관찰했습니다. 이미지는 빠르게 순차적으로 제시되었으며, 참가자들은 중앙 시선을 유지했습니다. 이상 탐지 과제를 통해 주의 집중을 유도했으며, 표현의 안정성과 재현성 분석을 위해 일부 이미지는 여러 세션에서 반복적으로 제시되었습니다.
과제 지향적인 기능 데이터 외에도, 이 데이터 세트는 고해상도 T1/T2 구조 이미지, 혈관 영상(TOF, T2*), 자기장 지도, 기능적 국소화 실험, 망막 위상 국소화 데이터, 휴식 상태 기능적 연결성 데이터 등 풍부한 구조 및 보조 스캔 정보를 제공하여 다단계 뇌 기능 모델링을 지원합니다.
띵스-메그 자기뇌파측정(MEG) 데이터 세트
* 온라인에서 사용하세요:
THINGS-MEG는 미국 국립보건원(NIH) 산하 국립정신건강연구소, 독일 막스 플랑크 인간인지뇌과학연구소, 기센 의과대학 등 여러 기관이 공동으로 개발한 사물 인지 연구를 위한 뇌 자기뇌파(MEG) 데이터셋입니다. 이 데이터셋은 피험자가 사물 이미지를 볼 때 밀리초 단위의 뇌 전자기 활동을 기록하며, 사물 처리의 시간적 역동성을 분석하는 데 사용됩니다.
이 데이터셋은 THINGS-data에 속합니다. MEG 실험에서 참가자들은 THINGS 이미지의 대표적인 하위 집합을 보았습니다. 실험은 12개의 독립적인 세션(참가자 4명)으로 구성되었으며, 1,854개의 모든 객체 범주를 포괄하는 22,448개의 고유 이미지가 포함되었습니다. 이미지는 빠르게 순차적으로 제시되었으며(평균 간격 약 1.5 ± 0.2초), 참가자들은 제시되는 동안 중앙 시선을 유지해야 했습니다.
THINGS-EEG EEG 데이터셋
* 온라인에서 사용하세요:
THINGS-EEG는 미국 국립보건원(NIH) 산하 국립정신건강연구소, 독일 막스 플랑크 인간인지뇌과학연구소, 기센 의과대학 등 여러 기관이 공동으로 개발한 사물 인지 연구를 위한 뇌전도(EEG) 데이터셋입니다. 이 데이터셋은 50명의 피험자가 사물 이미지를 볼 때의 뇌전도 활동을 기록하며, 사물 처리의 시간적 역동성과 인지적 표상을 분석하는 데 사용됩니다.
이 데이터셋은 THINGS-data에 속합니다. 실험 참가자들은 THINGS 이미지 데이터베이스에서 추출한 대표적인 자극 이미지들을 관찰했습니다. 이 데이터베이스는 1,854개의 객체 개념을 나타내는 22,248개의 이미지로 구성되어 있습니다. 이미지는 빠른 연속 시각 제시(RSVP) 방식으로 제시되었으며, 참가자들은 화면 중앙을 응시해야 했습니다. 일부 이미지는 신경 표상의 안정성을 분석하기 위해 반복적으로 제시되었습니다.
건강 및 라이프스타일 건강한 생활습관 데이터 세트
* 온라인에서 사용하세요:
건강 및 라이프스타일은 2025년에 발표된 건강한 라이프스타일 데이터 세트입니다. 이 데이터 세트는 라이프스타일 요소와 개인 건강 상태 간의 관계를 탐구하고 건강 예측 모델링, 클러스터 분석 및 데이터 마이닝을 위한 실험적 기반을 제공하는 것을 목표로 합니다.
이 데이터 세트는 CSV 형식으로 제공되는 10만 개의 개인 기록을 포함합니다. 인구 통계부터 건강 상태, 생활 습관까지 광범위한 정보를 포괄합니다. 이 데이터 세트에는 실제 개인 정보가 포함되어 있지 않으며, 모든 값은 실제 분포와의 통계적 일관성을 유지하면서 인위적으로 합성되었습니다.
MedQA 의료 텍스트 질의응답 데이터세트
* 온라인에서 사용하세요:
MIT와 화중과학기술대학교 연구팀이 개발한 의료 분야용 오픈소스 데이터셋인 MedQA는 미국 의사면허시험(USMLE)의 형식을 모방합니다.
전문 의학 시험에서 수집된 이 데이터셋은 영어, 중국어 간체, 중국어 번체로 구성되어 있으며, 각각 12,723개, 34,251개, 14,123개의 문항을 포함합니다. 이 데이터셋은 모델의 의학 지식 이해 및 적용 능력을 평가하는 데 사용됩니다. 문항 데이터 외에도, 방대한 양의 의학 교재 코퍼스가 수집 및 공개되어 있으며, 독해 모델은 이를 통해 문항에 답하는 데 필요한 지식을 습득할 수 있습니다. 데이터셋은 모델 학습, 검증, 테스트에 각각 사용되는 학습, 개발, 테스트 세트로 나뉩니다.
JMED 중국 실제 의료 데이터 데이터 세트
* 온라인에서 사용하세요:
https://hyper.ai/datasets/20490
JMED 데이터셋은 실제 의료 데이터 분포를 기반으로 Citrus 팀이 2025년에 구축한 새로운 데이터셋입니다.
이 데이터 세트는 JD Health 인터넷 병원에서 익명으로 진행된 의사-환자 대화 기록을 기반으로 하며, 표준화된 진단 워크플로를 따르는 진료 기록만 선별했습니다. 초기 버전에는 모든 연령대(0~90세)와 다양한 진료과를 아우르는 1,000건의 고품질 임상 기록이 포함되어 있습니다. 각 질문에는 21개의 선택지가 있으며, 그중 하나는 "위의 답변 중 어느 것도 해당되지 않음"입니다. 이러한 설계는 정답을 구분하는 데 있어 복잡성과 난이도를 크게 높여 보다 엄격한 평가 기준을 제공합니다.
JMED는 기존의 의료 QA 데이터 세트와 비교했을 때 세 가지 주요 장점이 있습니다. 첫째, 실제 상황에서 환자 증상 설명의 모호성과 임상 진단의 역동적인 특성을 보다 정확하게 반영합니다. 두 번째로, 확장된 응답 옵션은 수많은 방해 요소 중에서 올바른 답을 찾아내기 위해 향상된 추론 기술을 요구합니다. 또한, JD의 주요 병원의 방대한 진료 데이터를 활용하여 실제 환자 분포 특성에 맞는 데이터를 지속적으로 생성할 수 있습니다.








