11日前

大規模言語モデルは臨床知識を符号化している

Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan
大規模言語モデルは臨床知識を符号化している
要約

大規模言語モデル(LLM)は自然言語理解および生成において顕著な能力を示しているが、医療および臨床分野における品質基準は極めて高い。現在、モデルの臨床知識を評価しようとする試みは、限定的なベンチマーク上で自動評価に依存しているのが一般的である。広範なタスクにわたるモデルの予測や推論能力を評価するための標準は存在しない。これを解決するために、本研究では、専門医師国家試験、研究、一般ユーザーの質問をカバーする6つの既存オープンQAデータセットを統合した「MultiMedQA」と、オンラインで検索された医療関連質問を収集した新規自由回答型データセット「HealthSearchQA」を提示する。さらに、事実性、正確性、潜在的な害、バイアスなど複数の軸に基づく人間によるモデル回答評価フレームワークを提案する。併せて、5400億パラメータを有するLLM「PaLM」とそのインストラクションチューニング版「Flan-PaLM」をMultiMedQA上で評価した。提示戦略を組み合わせた結果、Flan-PaLMはMultiMedQAのすべての複数選択型データセット(MedQA、MedMCQA、PubMedQA、MMLU臨床トピック)において最先端の精度を達成し、特にMedQA(米国医師国家試験問題)では67.6%の精度を記録。これは従来の最先端モデルを17%以上上回った。しかし、人間による評価により、Flan-PaLMの回答には重要なギャップが存在することが明らかになった。この課題を解決するため、少数の例示サンプルを用いて新しいドメインにLLMを整合させるパラメータ効率的な手法「インストラクションプロンプトチューニング」を導入した。これにより得られたモデル「Med-PaLM」は前向きな結果を示したが、臨床医の水準には及ばない状態である。本研究では、モデル規模の拡大およびインストラクションプロンプトチューニングによって、理解力、知識の想起力、医学的推論能力が向上することを示した。これにより、LLMが医療分野における実用的な可能性を有していることが示唆された。一方で、人間評価を通じて現代のモデルに内在する重要な限界が明らかとなり、臨床応用向けに安全かつ有用なLLMを開発する上で、評価フレームワークの整備と手法の開発が不可欠であることが強調された。

大規模言語モデルは臨床知識を符号化している | 最新論文 | HyperAI超神経