日付

2年前

サイズ

20.69 MB

データセット構成

公開URL

github.com

Paper URL

www.nature.com

ライセンス

CC BY-NC-SA 3.0

タグ

MMedBench は、2024 年に上海交通大学人工知能学部のスマート医療チームによって開発された包括的な多言語医療能力テストベンチマークデータセットです。論文の結果は「医療用の多言語言語モデルの構築に向けて”。医療分野における多言語モデルの開発を評価することを目的としており、6 つの言語と 21 の医療サブ分野をカバーしています。 MMedBench のすべての質問は、さまざまな国の医療検査質問バンクから直接得られたものであるため、評価の正確性と信頼性が保証され、各国の医療行為ガイドラインの違いによって引き起こされる診断上の理解の逸脱が回避されます。この評価ベンチマークには、選択の正確さと説明の合理性という 2 つの主要な評価次元が含まれています。評価プロセス中、モデルは正しい答えを選択するだけでなく、合理的な説明も提供する必要があり、それによって複雑な医療情報を理解し解釈するモデルの能力をさらにテストする必要があります。 MMedBench のデータ統計は、トレーニングセットとテストセットの基本的な数値統計、およびさまざまなトピックに関するサンプルの分布を示します。研究チームは、ゼロショット、PEFT ファインチューニング、およびフルモデルファインチューニングという 3 つのテスト戦略を含む、MMedBench ベンチマークで主流の医療言語モデルを評価しました。テスト結果は、提案されたモデルが選択精度と説明合理性という 2 つの重要な側面において同レベルの既存のオープンソースモデルを上回り、GPT-4 に匹敵することを示しています。さらに、研究チームは手動によるスコアリング評価も実施しました。その結果、提案されたモデルが人間のユーザーに最も好まれました。 MMedBenchの立ち上げは、医療分野における多言語の大規模モデル研究を促進するだけでなく、臨床現場に新たなツールを提供し、特に言語の壁の解決や医療リソースのグローバル化において大きな可能性を示しています。すべてのデータとコードはオープンソースであり、世界的な研究コミュニティ間でのコラボレーションとテクノロジーの共有がさらに促進されます。

MMedBench の統計。図 a は、MMedBench トレーニングセットとテストセットの基本的な数値統計情報を示しています。図 b は、さまざまなトピックに関する MMedBench サンプルの分布を示しています。

MMedBench.torrent

シーディング 3ダウンロード中 0完了 177総ダウンロード数 435

MMedBench/
- README.md
  2.67 KB
- README.txt
  5.33 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

20.69 MB

データセット構成

公開URL

github.com

Paper URL

www.nature.com

ライセンス

CC BY-NC-SA 3.0

タグ

MMedBench.torrent

シーディング 3ダウンロード中 0完了 177総ダウンロード数 435

MMedBench/
- README.md
  2.67 KB
- README.txt
  5.33 KB

CL-bench コンテキスト学習評価ベンチマークデータセット

3ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

4ヶ月前

患者離脱予測データセット

4ヶ月前

LongBench-Pro ロングコンテキスト包括的評価データセット

5ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

AIでAIを構築

HyperAI Newsletters

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

Command Palette

MMedBench 多言語医療技能試験ベンチマーク データ セット

AIでAIを構築

HyperAI Newsletters

Command Palette

MMedBench 多言語医療技能試験ベンチマーク データ セット

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

MMedBench 多言語医療技能試験ベンチマーク データ セット

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

患者離脱予測データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

MMedBench 多言語医療技能試験ベンチマークデータセット

MMedBench 多言語医療技能試験ベンチマークデータセット

MMedBench 多言語医療技能試験ベンチマークデータセット