16日前

SMMILE: 多モーダル医療文脈学習の専門家主導ベンチマーク

Melanie Rieff; Maya Varma; Ossian Rabow; Subathra Adithan; Julie Kim; Ken Chang; Hannah Lee; Nidhi Rohatgi; Christian Bluethgen; Mohamed S. Muneer; Jean-Benoit Delbrouck; Michael Moor

論文の詳細を見る

要約

マルチモーダルなコンテキスト内学習（ICL）は、医療などの分野において大きな可能性を持つにもかかわらず、まだ十分に研究されていません。臨床医は日常的に、限られた例から適応する必要のある多様で専門的なタスクに遭遇します。例えば、関連する過去の事例から洞察を得たり、限定された一連の鑑別診断を考慮したりすることが挙げられます。マルチモーダルな大規模言語モデル（MLLMs）は医療視覚質問回答（VQA）において進歩を示していますが、これらのモデルがコンテキストからマルチモーダルなタスクを学習する能力についてはほとんど知られていません。私たちはSMMILE（Specialized Multimodal In-Context Learning Evaluation）を導入します。これは医療タスク向けの初めての専門家主導のマルチモーダルICLベンチマークです。11人の医療専門家が問題をキュレーションし、各問題にはマルチモーダルなクエリとコンテキスト内のマルチモーダルな例が含まれています。SMMILEには6つの医療専門分野と13種類の画像診断法をカバーする111の問題（517の質問-画像-回答トリプレット）が含まれています。さらに、SMMILE++という拡張版も導入しました。これは1038の順序変換された問題を含むバリアントです。15のMLLMsに対する包括的な評価では、ほとんどのモデルが医療タスクにおける中程度から低レベルのマルチモーダルICL能力しか持たないことが明らかになりました。オープンエンド評価では、SMMILEではゼロショットに対して平均8%、SMMILE++では9.4%の改善率しか見られませんでした。また、無関係なコンテキスト内の例に影響を受けやすいことも観察されました：ノイジーまたは無関係な単一の例でも最大9.5%まで性能が低下することがあります。さらに、例の順序付けには新鮮性バイアスがあることがわかりました。つまり、最も関連性のある例を最後に配置することで最大71%までの大幅な性能向上につながることがあります。これらの結果は、現在のMLLMsがコンテキストからマルチモーダルな医療タスクを学習する際に重要な制限とバイアスを持っていることを示しています。