10 の主要な医療データセットの概要: 質問応答/推論/実際の臨床記録/超音波画像/CT 画像などをカバーします。

医療分野における人工知能技術の深い統合と医用画像技術の継続的な革新により、生命の謎を解く鍵となる医療データは爆発的な速度で蓄積され、増加しています。それは伝統的な医学研究の限界を打ち破り、病気の診断と治療、健康管理に革命的な変化をもたらしました。
医学研究が経験主導からデータ主導へと移行するにつれて、基礎研究ツールの反復速度は徐々に低下しています。医療データセットの品質は、モデルが理論的概念から臨床実用化に移行できるかどうかを決定する中核的な要素となっています。高品質の医療データは、病気の特性を正確に捉えるだけでなく、個人に合わせた医療計画の策定に信頼できるサポートを提供します。
医療データセットの構築は、決して症例を単純に列挙するものではありません。一般的なデータ収集と比較して、医療データの取得では、患者のプライバシーとデータ使用のコンプライアンスを確保するために、倫理基準に厳密に従う必要があります。データの科学性と有効性を確保するためには、データ収集プロセスを標準化し、トレーニングセット、検証セット、テストセットを合理的に割り当て、疾患スペクトルの変化や診断・治療技術の発展に適応するために新しいデータを定期的に補充する動的更新メカニズムを確立する必要があります。病気の診断、医薬品の開発、健康の予測などの複雑な医療タスクに直面して、データセットを構築する際には、さまざまな分野のニーズを深く分析し、マルチモーダル情報を統合し、実際の臨床シナリオをシミュレートし、モデルトレーニング用の実用的な学習サンプルを提供する必要があります。
要約すると、精密医療の時代において、医療界全体で高品質の医療データセットに対する需要が爆発的に増加しています。この点について、HyperAI は、がん、心臓、骨の X 線など、複数の医療専門分野を網羅し、すべての人にとって非常に価値が高く、広く使用されている一連の医療データセットをまとめています。彼らの中には、トップクラスの医学部や権威ある医療機関出身者もいます。
クリックすると、さらにオープン ソース データセットが表示されます。
医療データセットの概要
1 JMED 中国の実際の医療データデータセット
ダウンロードアドレス:https://go.hyper.ai/4jJTa
JMED データセットは、実際の医療データの分布に基づいた新しいデータセットです。これは、2025 年に Citrus チームによって構築されました。データセットは、JD Health Internet Hospital における匿名の医師と患者の会話から取得され、標準化された診断ワークフローに従う診察を保持するようにフィルタリングされています。最初のリリースには、すべての年齢層 (0 〜 90 歳) と複数の専門分野をカバーする 1,000 件の高品質の臨床記録が含まれています。各質問には 21 個の回答オプションが含まれます。
既存のデータセットとは異なり、JMED は実際の臨床データを厳密にシミュレートしながら、効率的なモデルトレーニングを容易にします。実際の診察データに基づいていますが、実際の医療データから直接得られたものではないため、研究チームはモデルのトレーニングに必要な主要な要素を統合することができます。
2 MedQA 医療テキストの質問と回答のデータ セット
推定サイズ:125.64MB
ダウンロードアドレス:https://go.hyper.ai/VfIWx
MedQA データセットは、米国医師免許試験 (USMLE) のスタイルをシミュレートした医療分野向けの質問応答データセットです。これは、MITと華中科技大学の研究チームによって2020年に発表されました。関連する論文の結果は、「この患者はどんな病気にかかっているのか? 医療検査からの大規模なオープンドメイン質問回答データセット」です。
データセットにはそれぞれ 12,723、34,251、14,123 の質問が含まれており、モデルの医学知識の理解と適用の能力を評価するように設計されています。トレーニング セット、開発セット、テスト セットに分かれており、それぞれモデルのトレーニング、検証、テストに使用されます。
3 医療 O1 推論 SFT
医療推論データセット
推定サイズ:21.71MB
ダウンロードアドレス:https://go.hyper.ai/iVUWA
Medical o1 Reasoning SFT データセットは、2024 年に香港中文大学と深圳ビッグデータ研究所によってリリースされました。関連する論文結果は、「HuatuoGPT-o1、LLM による医療複合推論に向けて」です。
このデータセットは、医療用大規模言語モデルである HuatuoGPT-o1 を微調整するために特別に設計されており、複雑な医療推論タスクにおけるパフォーマンスを向上させることを目的としています。データセットの構築は GPT-4o に依存しており、検証可能な医療質問を検索し、回答検証に医療バリデータを利用することでデータの正確性と信頼性を保証します。
4 ROCOv2 放射線学
マルチモーダル医療画像データセット
推定サイズ:17.29 GB
ダウンロードアドレス:https://go.hyper.ai/xs4zS
ROCOv2 (Radiology Object in COntext バージョン 2) は、放射線画像と関連する医療概念および説明を組み合わせた革新的なマルチモーダル医療画像データセットです。このデータセットは、PMC オープン アクセス サブセットから放射線画像と関連する医学的概念および説明を抽出し、ROCO データセットに基づいて概念の抽出とフィルタリングを改善します。
このデータセットには、さまざまな臨床様式、解剖学的領域、方向 (X 線の場合) を網羅した 79,789 枚の放射線画像が含まれており、それぞれに対応する医学的概念の説明が付いています。画像注釈モデルのトレーニング、マルチラベル画像分類、医療分野モデルの事前トレーニング、ディープラーニングモデルの評価、画像検索およびキャプション生成などに使用できます。
5 MedCalc-Bench 医療コンピューティング データ セット
推定サイズ:16.04MB
ダウンロードアドレス:https://go.hyper.ai/pDbcu
MedCalc-Bench は、大規模言語モデル (LLM) の医療コンピューティング機能を評価するために特別に設計されたデータセットです。これは、国立医学図書館、国立衛生研究所、バージニア大学を含む9つの機関によって2024年に共同で公開されました。関連する論文成果は「MEDCALC-BENCH: 医療計算のための大規模言語モデルの評価」であり、NeurIPS 2024 に採択されました。
データセットには 10,055 個のトレーニング インスタンスと 1,047 個のテスト インスタンスが含まれており、55 種類のコンピューティング タスクをカバーしています。各例には、患者のメモ、特定の臨床値を計算するための質問、最終的な回答値、および段階的な解決策が含まれています。トレーニング セットとテスト セットに分割されており、LLM を微調整して医療コンピューティング タスクのパフォーマンスを向上させるために使用できます。
6 AI Medical Chatbot 医療会話データセット
推定サイズ:118.35MB
ダウンロードアドレス:https://go.hyper.ai/W5OnS
これは医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。
7 TCGA-ESCA がんCT画像検査
推定サイズ:3.79GB
ダウンロードアドレス:https://go.hyper.ai/eJWQt
TCGA – ESCA Cancer CT Images は、GDC データ ポータルによって公開された食道がん関連のデータセットです。このデータセットは、185 人からの 5,271 件のデータ ファイルが含まれており、がんの診断と治療プロセス全体をデジタルで追跡し、検査結果、処方、有効性をデジタル アーカイブの形式で記録することを目的としています。
8 TCGA-KICH がんCT画像検査
推定サイズ:1.62GB
ダウンロードアドレス:https://go.hyper.ai/iVUWA
TCGA – KICH Cancer CT Images は、GDC Data Portal によって公開された、腺腫および腺癌に関連するデータセットです。このデータセットは、113 人からの 2,325 件のデータ ファイルが含まれており、がんの診断と治療プロセス全体をデジタルで追跡し、検査結果、処方、有効性をデジタル アーカイブの形式で記録することを目的としています。
9 がんCT画像データ
推定サイズ:367.88 MB
ダウンロードアドレス:https://go.hyper.ai/tsMh5
CT 医療画像分析チュートリアル: コントラストと患者の年齢を含む癌画像アーカイブからの CT 画像データセットは、2016 年に Kaggle によってリリースされた癌 CT 画像データセットです。関連論文は、「The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] コレクションからの放射線データ」です。
このデータベースには、患者の年齢と CT 画像データの関係を調査、比較するための 69 人の患者の 475 症例の CT 画像が含まれており、TCGA-LUAD 肺癌 CT 画像データベースの一部となっています。
10 MURA骨X線データセット
推定サイズ:6.74ギガバイト
ダウンロードアドレス:https://go.hyper.ai/DlGYH
MURA データセットは、X 線を通じて骨が正常かどうかを判断することを目的とした大規模な骨 X 線データセットです。このデータセットは、2017 年にスタンフォード大学によって公開されました。関連論文は、「MURA: 筋骨格のレントゲン写真における異常検出のための大規模データセット」です。
出版社は、このデータセットが、専門家レベルの診断を可能にする医療画像技術の大きな進歩につながり、放射線科医の数が限られている地域での医療を改善することを期待しています。