トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

医療用人工知能の急速な発展は、高品質のデータセットのサポートと切り離すことができません。病気の診断から医薬品開発、個別化医療に至るまで、データセットは医療分野でのマシンビジョンや大型モデルの応用を促進する上で不可欠な役割を果たします。
医療データセットにはさまざまな形式があり、さまざまな次元や分野のデータリソースをカバーしています。たとえば、病気の診断の分野では、RJUA-QA のような質問と回答のデータ セットが複雑な医学知識の自動適用を促進しますが、伝統的な中国医学の分野では、神農伝統中国医学データ セットは伝統的な中国医学の文献を統合します。臨床例と処方データ。
これを受けて、この記事では、神農伝統中医学、古代中国医学書、医学的推論、医学的質疑応答などを網羅した医療分野の10のデータセットをまとめました。その目的は、研究者が分布と特徴を迅速に理解できるようにすることです。これらのデータ リソースを収集し、特定の研究課題へのアプリケーションを提供すると、インスピレーションが得られます。
クリックすると、さらにオープン ソース データセットが表示されます。
QRコードを読み取って「データセット」をメモし、ディスカッショングループに参加してください↓

中国の医療データセットの概要
1. 初の中医学専門問答推論データセット
推定サイズ:2.34MB
ダウンロードアドレス:https://go.hyper.ai/rIwcK
このデータ セットは、Ant Group Medical LLM (Large Language Model) チームと上海交通大学医学部附属仁吉病院の泌尿器科専門家チームによって作成された、革新的な医療泌尿器科の専門的な質問と回答推論データ セットです。 Q-context-A(Question-Context-Answer)形式で提示されており、症例データは臨床経験に基づいて専門の医師によって編集されており、患者や医師の個人的なプライバシーには関与しません。
2. 中国医学問答データセット
推定サイズ:279.64MB
ダウンロードアドレス:https://go.hyper.ai/lM5sd
このデータ セットは中国の医療の質問と回答のデータ セットで、6 つの異なる診療科フォルダーが含まれています。すなわち、男性医学の 94,596 の質問と回答のペア、内科の質問と回答のペア 220,606 件、産婦人科の質問と回答のペア 183,751 件、産婦人科の質問と回答のペア 75,553 件です。腫瘍学、小児科の質問と回答のペア 101,602 件、外科の質問と回答のペア 115,991 件、合計 792,099 件のデータ。各フォルダーの下に csv ファイルがあります。
3. 医療会話データセット
推定サイズ:118.35MB
ダウンロードアドレス:https://go.hyper.ai/MCH57
これは医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。
4. 神農伝統中国医学データセット
推定サイズ:28.98MB
ダウンロードアドレス:https://go.hyper.ai/iJsGu
このデータセットは、伝統的な中国医学の分野における大規模な言語モデルのトレーニングと評価のために特別に設計されています。エンティティ中心の自己指導メソッドを通じて生成された 110,000 を超える指導データが含まれており、伝統的な中国医学の分野におけるコア エンティティとさまざまな意図シナリオに焦点を当てており、伝統的な問題に関連する質問に答えるモデルの能力を向上させることができます。中国医学だけでなく、中医学の診断も支援し、個別の医療アドバイスを提供します。
5. 古代中国医学書のデータセット
推定サイズ:80.49MB
ダウンロードアドレス:https://go.hyper.ai/pyHEs
このデータ セットには、秦王朝以前から清王朝後期および中華民国までの医学の古典をカバーする約 700 の古代中国医学書が含まれています。これらの文書には、医学理論、処方箋、薬理学などが含まれているだけでなく、豊富な臨床症例や医学百科事典の知識も含まれています。
6. 漢方薬診断データセット
推定サイズ:341.69MB
ダウンロードアドレス:https://go.hyper.ai/cIHaP
本データセットは、中医学分野を中心とした質の高いデータセットであり、中医学の各分野の臨床症例、有名な古典、医学事典、用語解説など、約1GBの質の高いコンテンツが収録されています。 。データ セットは主に非ネットワーク ソースからの内部データで構成されており、優れた品質とかなりの情報密度を備えた簡体字中国語コンテンツであり、事前トレーニングまたは継続的な事前トレーニングの目的に適しています。
7. 伝統的な中国医学対話データセット
推定サイズ:737.32MB
ダウンロードアドレス:https://go.hyper.ai/cCrcT
この中国医療データセットは、医療分野で専門的な対話とアドバイスを提供できる言語モデルを開発およびトレーニングするための包括的なリソースです。百科事典的な知識、教科書のテキスト、実際の医師と患者の会話、評価データなど複数のデータを組み合わせて、モデルの精度と実用性の向上を目指しています。
8. 医学的推論データセット
ダウンロードアドレス:https://go.hyper.ai/BAVNR
このデータセットは、2024 年に香港中文大学と深センビッグデータ研究所によってリリースされました。このデータセットは、大規模な医療言語モデルである HuatuoGPT-o1 を微調整するために特別に設計されており、複雑な医療推論タスクにおけるパフォーマンスを向上させることを目的としています。 。
9. 多言語医療技能試験ベンチマークデータセット
推定サイズ:20.69MB
ダウンロードアドレス:https://go.hyper.ai/ux6FF
このデータセットは、2024 年に上海交通大学人工知能学部のスマート医療チームによって開発された、包括的な多言語医療技能試験ベンチマーク データセットです。医療分野における多言語モデルの開発を評価するために設計されており、以下をカバーします。 6つの言語と21種類の医学。
10 、 MMedC 大規模多言語医療コーパス
推定サイズ:31.05GB
ダウンロードアドレス:https://go.hyper.ai/K8RcQ
このデータセットは、2024 年に上海交通大学人工知能学部のスマート医療チームによって構築された多言語医療コーパスです。これには、英語、中国語、日本語、フランス語、ロシア語の 6 つの主要言語をカバーする約 255 億のトークンが含まれています。スペイン語。
上記は、HyperAI がまとめた中国の医療データセットです。hyper.ai の公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してください。
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,300 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 400 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 200 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。