トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

1年前

情報

人工知能

医療用人工知能の急速な発展は、高品質のデータセットのサポートと切り離すことができません。病気の診断から医薬品開発、個別化医療に至るまで、データセットは医療分野でのマシンビジョンや大型モデルの応用を促進する上で不可欠な役割を果たします。

医療データセットにはさまざまな形式があり、さまざまな次元や分野のデータリソースをカバーしています。たとえば、病気の診断の分野では、RJUA-QA のような質問と回答のデータセットが複雑な医学知識の自動適用を促進しますが、伝統的な中国医学の分野では、神農伝統中国医学データセットは伝統的な中国医学の文献を統合します。臨床例と処方データ。

これを受けて、この記事では、神農伝統中医学、古代中国医学書、医学的推論、医学的質疑応答などを網羅した医療分野の10のデータセットをまとめました。その目的は、研究者が分布と特徴を迅速に理解できるようにすることです。これらのデータリソースを収集し、特定の研究課題へのアプリケーションを提供すると、インスピレーションが得られます。

クリックすると、さらにオープンソースデータセットが表示されます。

https://go.hyper.ai/SjWDr

QRコードを読み取って「データセット」をメモし、ディスカッショングループに参加してください↓

中国の医療データセットの概要

1. MedChatZH中国語医療会話コマンドデータセット

推定サイズ:3.9GB

ダウンロードアドレス:https://go.hyper.ai/AZwFf

MedChatZHは、華東科技大学が公開した中国語医療会話データセットです。中医学古典の継続的な事前学習と医療指導データの微調整を通じて、中国語医療相談会話（特に中医学のシナリオ）の理解と生成能力を向上させることを目的としています。

2. RJUA-QA 中国初の医療専門分野の質問回答推論データセット

推定サイズ:2.34MB

ダウンロードアドレス:https://go.hyper.ai/rIwcK

このデータセットは、Ant Group Medical LLM (Large Language Model) チームと上海交通大学医学部附属仁吉病院の泌尿器科専門家チームによって作成された、革新的な医療泌尿器科の専門的な質問と回答推論データセットです。 Q-context-A（Question-Context-Answer）形式で提示されており、症例データは臨床経験に基づいて専門の医師によって編集されており、患者や医師の個人的なプライバシーには関与しません。

3. 中国医学対話データ

推定サイズ:279.64MB

ダウンロードアドレス:https://go.hyper.ai/lM5sd

このデータセットは中国の医療の質問と回答のデータセットで、6 つの異なる診療科フォルダーが含まれています。すなわち、男性医学の 94,596 の質問と回答のペア、内科の質問と回答のペア 220,606 件、産婦人科の質問と回答のペア 183,751 件、産婦人科の質問と回答のペア 75,553 件です。腫瘍学、小児科の質問と回答のペア 101,602 件、外科の質問と回答のペア 115,991 件、合計 792,099 件のデータ。各フォルダーの下に csv ファイルがあります。

4. AI医療チャットボット医療会話データセット

推定サイズ:118.35MB

ダウンロードアドレス:https://go.hyper.ai/MCH57

これは医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。

5. 神農TCMデータセット 神農伝統中国医学データセット

推定サイズ:28.98MB

ダウンロードアドレス:https://go.hyper.ai/iJsGu

このデータセットは、伝統的な中国医学の分野における大規模な言語モデルのトレーニングと評価のために特別に設計されています。エンティティ中心の自己指導メソッドを通じて生成された 110,000 を超える指導データが含まれており、伝統的な中国医学の分野におけるコアエンティティとさまざまな意図シナリオに焦点を当てており、伝統的な問題に関連する質問に答えるモデルの能力を向上させることができます。中国医学だけでなく、中医学の診断も支援し、個別の医療アドバイスを提供します。

6. TCM古代書籍伝統中国医学古代書籍データセット

推定サイズ:80.49MB

ダウンロードアドレス:https://go.hyper.ai/pyHEs

このデータセットには、秦王朝以前から清王朝後期および中華民国までの医学の古典をカバーする約 700 の古代中国医学書が含まれています。これらの文書には、医学理論、処方箋、薬理学などが含まれているだけでなく、豊富な臨床症例や医学百科事典の知識も含まれています。

7. 伝統中国医学データセット SFT 伝統中国医学診断データセット

推定サイズ:341.69MB

ダウンロードアドレス:https://go.hyper.ai/cIHaP

本データセットは、中医学分野を中心とした質の高いデータセットであり、中医学の各分野の臨床症例、有名な古典、医学事典、用語解説など、約1GBの質の高いコンテンツが収録されています。。データセットは主に非ネットワークソースからの内部データで構成されており、優れた品質とかなりの情報密度を備えた簡体字中国語コンテンツであり、事前トレーニングまたは継続的な事前トレーニングの目的に適しています。

8. 中国医学対話データセット

推定サイズ:737.32MB

ダウンロードアドレス:https://go.hyper.ai/cCrcT

この中国医療データセットは、医療分野で専門的な対話とアドバイスを提供できる言語モデルを開発およびトレーニングするための包括的なリソースです。百科事典的な知識、教科書のテキスト、実際の医師と患者の会話、評価データなど複数のデータを組み合わせて、モデルの精度と実用性の向上を目指しています。

9. 医療 o1 推論 SFT 医療推論データセット

ダウンロードアドレス:https://go.hyper.ai/BAVNR

このデータセットは、2024 年に香港中文大学と深センビッグデータ研究所によってリリースされました。このデータセットは、大規模な医療言語モデルである HuatuoGPT-o1 を微調整するために特別に設計されており、複雑な医療推論タスクにおけるパフォーマンスを向上させることを目的としています。。

10. MMedBench多言語医療能力テストベンチマークデータセット

推定サイズ:20.69MB

ダウンロードアドレス:https://go.hyper.ai/ux6FF

このデータセットは、2024 年に上海交通大学人工知能学部のスマート医療チームによって開発された、包括的な多言語医療技能試験ベンチマークデータセットです。医療分野における多言語モデルの開発を評価するために設計されており、以下をカバーします。 6つの言語と21種類の医学。

11 、 MMedC 大規模多言語医療コーパス

推定サイズ:31.05GB

ダウンロードアドレス:https://go.hyper.ai/K8RcQ

このデータセットは、2024 年に上海交通大学人工知能学部のスマート医療チームによって構築された多言語医療コーパスです。これには、英語、中国語、日本語、フランス語、ロシア語の 6 つの主要言語をカバーする約 255 億のトークンが含まれています。スペイン語。

上記は、HyperAI がまとめた中国の医療データセットです。hyper.ai の公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してください。

HyperAIについて Hyper.ai

HyperAI（hyper.ai）は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,300 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 400 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 200 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

1年前

クリックすると、さらにオープンソースデータセットが表示されます。

https://go.hyper.ai/SjWDr

QRコードを読み取って「データセット」をメモし、ディスカッショングループに参加してください↓

中国の医療データセットの概要

1. MedChatZH中国語医療会話コマンドデータセット

推定サイズ:3.9GB

ダウンロードアドレス:https://go.hyper.ai/AZwFf

2. RJUA-QA 中国初の医療専門分野の質問回答推論データセット

推定サイズ:2.34MB

ダウンロードアドレス:https://go.hyper.ai/rIwcK

3. 中国医学対話データ

推定サイズ:279.64MB

ダウンロードアドレス:https://go.hyper.ai/lM5sd

4. AI医療チャットボット医療会話データセット

推定サイズ:118.35MB

ダウンロードアドレス:https://go.hyper.ai/MCH57

これは医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。

5. 神農TCMデータセット 神農伝統中国医学データセット

推定サイズ:28.98MB

ダウンロードアドレス:https://go.hyper.ai/iJsGu

6. TCM古代書籍伝統中国医学古代書籍データセット

推定サイズ:80.49MB

ダウンロードアドレス:https://go.hyper.ai/pyHEs

7. 伝統中国医学データセット SFT 伝統中国医学診断データセット

推定サイズ:341.69MB

ダウンロードアドレス:https://go.hyper.ai/cIHaP

8. 中国医学対話データセット

推定サイズ:737.32MB

ダウンロードアドレス:https://go.hyper.ai/cCrcT

9. 医療 o1 推論 SFT 医療推論データセット

ダウンロードアドレス:https://go.hyper.ai/BAVNR

10. MMedBench多言語医療能力テストベンチマークデータセット

推定サイズ:20.69MB

ダウンロードアドレス:https://go.hyper.ai/ux6FF

11 、 MMedC 大規模多言語医療コーパス

推定サイズ:31.05GB

ダウンロードアドレス:https://go.hyper.ai/K8RcQ

HyperAIについて Hyper.ai

* 1,300 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 400 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 200 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

中国の医療データセットの概要

HyperAIについて Hyper.ai

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

中国の医療データセットの概要

HyperAIについて Hyper.ai

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

中国の医療データセットの概要

HyperAIについて Hyper.ai

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

Command Palette

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

中国の医療データセットの概要

HyperAIについて Hyper.ai

Command Palette

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

中国の医療データセットの概要

HyperAIについて Hyper.ai

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

Command Palette

トップ 10 の中国医学データセットの概要: 神農伝統中国医学、古代中国医学書、医学的推論、医療 Q&A をカバーします...

中国の医療データセットの概要

HyperAIについて Hyper.ai

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連ニュース

関連ニュース

関連ニュース

関連ニュース