HyperAI超神経

MMedBench 多言語医療技能試験ベンチマーク データ セット

日付

7ヶ月前

サイズ

20.69 MB

組織

上海交通大学

公開URL

github.com

ライセンス

CC BY-NC-SA 3.0

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

MMedBench は、2024 年に上海交通大学人工知能学部のスマート医療チームによって開発された包括的な多言語医療能力テスト ベンチマーク データ セットです。論文の結果は「医療用の多言語言語モデルの構築に向けて”。医療分野における多言語モデルの開発を評価することを目的としており、6 つの言語と 21 の医療サブ分野をカバーしています。 MMedBench のすべての質問は、さまざまな国の医療検査質問バンクから直接得られたものであるため、評価の正確性と信頼性が保証され、各国の医療行為ガイドラインの違いによって引き起こされる診断上の理解の逸脱が回避されます。

この評価ベンチマークには、選択の正確さと説明の合理性という 2 つの主要な評価次元が含まれています。評価プロセス中、モデルは正しい答えを選択するだけでなく、合理的な説明も提供する必要があり、それによって複雑な医療情報を理解し解釈するモデルの能力をさらにテストする必要があります。 MMedBench のデータ統計は、トレーニング セットとテスト セットの基本的な数値統計、およびさまざまなトピックに関するサンプルの分布を示します。

研究チームは、ゼロショット、PEFT ファインチューニング、およびフルモデル ファインチューニングという 3 つのテスト戦略を含む、MMedBench ベンチマークで主流の医療言語モデルを評価しました。テスト結果は、提案されたモデルが選択精度と説明合理性という 2 つの重要な側面において同レベルの既存のオープンソース モデルを上回り、GPT-4 に匹敵することを示しています。さらに、研究チームは手動によるスコアリング評価も実施しました。その結果、提案されたモデルが人間のユーザーに最も好まれました。

MMedBenchの立ち上げは、医療分野における多言語の大規模モデル研究を促進するだけでなく、臨床現場に新たなツールを提供し、特に言語の壁の解決や医療リソースのグローバル化において大きな可能性を示しています。すべてのデータとコードはオープンソースであり、世界的な研究コミュニティ間でのコラボレーションとテクノロジーの共有がさらに促進されます。

MMedBench の統計。図 a は、MMedBench トレーニング セットとテスト セットの基本的な数値統計情報を示しています。図 b は、さまざまなトピックに関する MMedBench サンプルの分布を示しています。

MMedBench.torrent
シーディング 1ダウンロード中 1ダウンロード完了 74総ダウンロード数 178
  • MMedBench/
    • README.md
      2.67 KB
    • README.txt
      5.33 KB
      • data/
        • MMedBench.zip
          20.69 MB