9言語臨床テキストのAI理解度を評価するベンチマーク開発
マサチューセッツ州のマス・ジェネラル・ブリガム・ヘルスの研究者チームは、大規模言語モデルの臨床テキスト理解能力を評価するための多言語ベンチマークBRIDGEを開発し、学術誌Nature Biomedical Engineeringに発表した。本ツールは電子健康記録や医師患者間の会話など実際の臨床現場のデータを活用し、英語を含む9か国語に対応している。 従来の医療AI評価は標準化された医学試験問題に依存する傾向があり、実臨床の複雑な言語表現を正確に反映できていなかった。本研究を主導するJie Yang博士は、BRIDGEが臨床現場におけるAI選定を支援し、開発者の性能改善にも寄与すると説明する。評価結果では、医学ライセンス試験で最高得点を記録したモデルでも、BRIDGEの臨床テキスト評価では44.8%にとどまり、標準テストと実運用能力の間に顕著な乖離が存在することが確認された。 チームは59機関由来の95種類のLLMを対象に、トリアージ、情報抽出、診断、予後予測、診療報酬コーディングなど14の専門分野にわたる実タスクを評価した。その結果、AIの性能は専門分野によって大きく左右されることが明らかになった。現在、107種類のモデルが登録された公開リーダーボードを運用しており、医療従事者と開発者がモデルの臨床適用性を継続的に比較できる基盤を整備している。 多言語データを統合した本ベンチマークは、非英語圏患者に対する医療AIの公平性と精度向上にも貢献すると期待される。臨床現場の複雑な言語課題に対応した評価基準の確立は、医療AIの実用化を加速し、国際的な医療格差是正への重要な枠組みとなる。
