Command Palette
Search for a command to run...
データセット集|医用画像データ/臨床データから細胞アトラス/医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

AIが医療分野に急速に浸透するにつれ、高品質なデータセットは、モデル性能の向上とアプリケーションの実装を推進するための中心的な基盤となりつつある。医用画像認識から臨床意思決定支援、さらに生物学的メカニズムの分析まで、データの種類、規模、および注釈の精度は、モデルの能力の上限と適用範囲を直接的に決定する。
全体的な発展の観点から見ると、医療データセットは、マルチモダリティ化と洗練化に向けた並行的な進化という特徴を示している。一方では、X線、CTスキャン、MRIスキャンなどの医用画像データは、依然として主流である。これらのデータは標準化された構造と明確な注釈を備えているため、コンピュータビジョンモデルのトレーニングと評価に適している。一方で、臨床指標、疾患リスク予測、薬剤反応、さらには単一細胞シーケンスなど、より複雑なデータタイプが急速に増加しており、AIは「画像認識」から、より高度な診断支援や生命科学研究へと進化を遂げつつある。
本稿で取り上げた10の医療関連データセットは、この傾向の一側面を示している。様々な疾患シナリオと研究方向を網羅している。これには、特定の疾患に関連する画像データや臨床データだけでなく、より最先端のバイオインフォマティクスや薬剤関連の研究データも含まれる。
これらのデータセットを体系的にレビューした結果、標準化された構造化データはモデルのトレーニングと評価において依然として不可欠である一方、異種モダリティおよび複数ソースのデータを融合する能力が、モデルのパフォーマンスと汎化能力に影響を与える重要な要素になりつつあることが明らかになった。これらのデータリソースを詳細に分析することで、医療AIの現在の開発優先事項と進化の方向性をより深く理解することも可能になる。
長い間、HyperAIは、複数の分野から継続的にデータセットを収集・整理します。これは、医療分野における医用画像、臨床データ、バイオインフォマティクスなど、複数の領域を網羅する高品質なオープンソースデータセットを提供するだけでなく、身体化された知能、自動運転、OCR、マルチモーダル理解、インテリジェントな質問応答など、多くのタスク/ドメインにおいて、世界中の研究者や開発者向けに統一されたデータ発見および利用ポータルも提供します。
より高品質なデータセット:
歴史上のパンデミックとエピデミック 世界的な歴史的疫病データセット
* オンラインで利用する:
歴史的パンデミック・エピデミックデータセットは、世界史における主要なパンデミック事象を網羅したデータセットであり、分析にすぐに利用できるリソースとして設計されています。このデータセットには、西暦165年のアントニヌス疫病から2023年のCOVID-19やサル痘まで、あらゆる時代、地域、病原体タイプを網羅した50の主要なパンデミック事象が含まれています。
肺がん臨床 肺がん臨床データセット
* オンラインで利用する:
肺がん臨床データセットは、2015年から2025年までの1,500件の患者記録を含む臨床データセットであり、世界保健機関(WHO)の6つの地域すべてにわたる60か国を網羅しています。
このデータセットは、肺がんに関する詳細な臨床情報、人口統計情報、生活習慣情報、遺伝子情報、および診断情報を提供します。データはWHOファクトシートおよび世界がん研究統計(GLOBOCAN 2020)から取得されており、探索的データ分析(EDA)、機械学習による分類、生存分析、地理的傾向分析、および公衆衛生研究に適しています。
薬物有害反応 シミュレーションされた薬物有害反応データセット
* オンラインで利用する:
このデータセットは、医薬品副作用(ADR)の医薬品安全性監視報告書を模倣するように設計されており、医薬品安全性モニタリングにおける研究、機械学習実験、アルゴリズム開発を支援することを目的としています。症例安全性報告書(ICSR)は、FDA FAERSやEMA EudraVigilanceなどの実際の医薬品安全性監視システムに着想を得て、人工的に生成されています。
このデータセットは、特に重篤な ADR の希少性と不均衡を強調しています。報告のほとんどは軽度の反応ですが、重篤で致命的な結果は比較的まれです (重篤/致命的の合計は約 4~51 TP3T)。これは、市販後調査でよく見られる報告不足と重篤度の分布の偏りを反映しています。
パンキャンサーscRNA-Seq がん単一細胞転写アトラスデータセット
* オンラインで利用する:
このデータセットには、7,930個の単一細胞からのトランスクリプトーム発現データが含まれており、3つの異なる生物学的状態(健常免疫ベースライン、液性腫瘍(骨髄性白血病)、固形腫瘍微小環境(メラノーマ))を網羅しています。本データセットは、コホート間統合単一細胞解析ベンチマークの構築を目的としており、アルゴリズムの性能評価と方法論の比較、マルチコホートバッチ効果補正、免疫疲弊状態解析、そして腫瘍タイプ間のバイオマーカーマイニングのためのベンチマークを提供します。
THINGS-fMRI 機能的磁気共鳴画像データセット
* オンラインで利用する:
THINGS-fMRIは、米国国立衛生研究所(NIH)の国立精神衛生研究所、ドイツのマックス・プランク人間認知・脳科学研究所、ギーセン大学医学部などによって公開されている、物体認知研究のための高密度機能的磁気共鳴画像(fMRI)データセットです。このデータセットは、人間の脳が現実世界の物体をどのように視覚的および意味的に表現するかを体系的に特徴付けることを目的としています。
このデータセットはTHINGSデータに属し、1,854個のオブジェクト概念と、自然シーンにおけるオブジェクトの手動で選択・ラベル付けされた画像26,107枚が含まれています。fMRI実験では、被験者はスキャン中にTHINGS画像データベースからオブジェクト画像を閲覧し、脳内のオブジェクトの空間表現分布を分析するために全脳BOLD信号が記録されました。
3名の参加者は合計12回のスキャンセッションを完了し、720種類の対象カテゴリーを網羅する8,740枚の異なる画像を閲覧した。画像は迅速かつ順次提示され、参加者は中心視線を維持した。異常検出課題によって注意の集中が確保され、表象の安定性と再現性分析を支援するため、一部の画像は異なるセッションで繰り返し提示された。
データセットは、タスク指向の機能データに加えて、高解像度の T1/T2 構造画像、血管画像 (TOF、T2*)、フィールド マップ、機能局在実験、網膜トポロジカル局在データ、安静時機能接続データなどの豊富な構造および補助スキャン情報も提供し、多段階の脳機能モデリングをサポートします。
シングス・メグ 脳磁図(MEG)データセット
* オンラインで利用する:
THINGS-MEGは、米国国立衛生研究所(NIH)の国立精神衛生研究所、ドイツのマックス・プランク人間認知・脳科学研究所、ギーセン大学医学部などによって公開されている、物体認知研究のための脳磁図(MEG)データセットです。被験者が物体の画像を見た際の脳の電磁気活動をミリ秒レベルで記録し、物体処理の時間的ダイナミクスを分析するために用いられます。
このデータセットはTHINGSデータに属します。MEG実験では、参加者はTHINGS画像の代表的なサブセットを閲覧しました。実験は12の独立したセッション(参加者数N=4)で構成され、1,854のオブジェクトカテゴリすべてを網羅する22,448枚のユニークな画像が含まれていました。画像は高速かつ順次提示され(平均間隔は約1.5±0.2秒)、参加者は実験中ずっと中心視線を維持する必要がありました。
THINGS-EEG EEGデータセット
* オンラインで利用する:
THINGS-EEGは、米国国立衛生研究所(NIH)の国立精神衛生研究所、ドイツのマックス・プランク人間認知・脳科学研究所、ギーセン大学医学部などによって公開されている、物体認知研究のための脳波(EEG)データセットです。50人の被験者が物体の画像を見ている際のEEG活動を記録し、物体処理の時間的ダイナミクスと認知表現を分析するために使用されています。
このデータセットはTHINGSデータに属します。実験では、参加者はTHINGS画像データベースから抽出された代表的な刺激のサブセットを閲覧しました。このデータベースには、1,854種類の物体概念を網羅する22,248枚の画像が含まれています。画像は高速連続視覚提示(RSVP)方式で提示され、参加者は中心注視を維持する必要がありました。神経表現の安定性を分析するために、一部の画像は繰り返し提示されました。
健康とライフスタイル 健康的なライフスタイルデータセット
* オンラインで利用する:
健康とライフスタイルは、2025年にリリースされた健康ライフスタイルデータセットです。ライフスタイル要因と個人の健康状態の関係を調査し、健康予測モデリング、クラスター分析、データマイニングの実験的基盤を提供することを目的としています。
このデータセットには10万件の個人レコードが含まれており、CSV形式で提供されます。人口統計から健康状態、生活習慣まで、幅広い情報を網羅しています。データには実際の個人情報は一切含まれておらず、すべての値は人工的に合成されたもので、現実世界の分布との統計的整合性が保たれています。
MedQA 医療テキストの質問と回答のデータ セット
* オンラインで利用する:
MedQAは、MITと華中科技大学の研究チームが開発した医療分野向けのオープンソースデータセットで、米国医師免許試験(USMLE)の形式をシミュレートしています。
このデータセットは、専門医による健康診断から収集されたもので、英語、簡体字中国語、繁体字中国語を網羅しており、それぞれ12,723問、34,251問、14,123問が含まれています。このデータセットは、モデルが医学知識を理解し応用する能力を評価することを目的としています。質問データに加えて、大規模な医学教科書のコーパスが収集され公開されており、そこから読解モデルは質問に答えるために必要な知識を取得できます。データセットは、モデルのトレーニング、検証、テストにそれぞれ使用されるトレーニングセット、開発セット、テストセットに分割されています。
JMED 中国の実際の医療データデータセット
* オンラインで利用する:
https://hyper.ai/datasets/20490
JMEDデータセットは、2025年にCitrusチームによって構築された、実際の医療データ分布に基づいた新しいデータセットです。
このデータセットは、JDヘルスインターネット病院における匿名の医師と患者の対話から得られたもので、標準化された診断ワークフローに従った診察のみを抽出するようにフィルタリングされています。初期バージョンには、0歳から90歳までの全年齢層と複数の専門分野を網羅した、質の高い臨床記録1,000件が含まれています。各質問には21の選択肢があり、そのうちの1つは「上記以外」です。この設計により、正解を見分ける複雑さと難易度が大幅に高まり、より厳密な評価フレームワークが提供されます。
既存の医療 QA データセットと比較して、JMED には 3 つの主な利点があります。第 1 に、患者の症状の説明の曖昧さと実際のシナリオにおける臨床診断の動的な性質をより正確に反映します。第二に、拡張された回答オプションでは、多数の誤答の中から正しい答えを特定するために、高度な推論スキルが必要になります。さらに、JDの主要病院の膨大な診察データを活用することで、実際の患者分布特性に即したデータを継続的に生成することができます。








