11日前

大規模言語モデルを用いたエキスパートレベルの医療質問応答へ

Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
大規模言語モデルを用いたエキスパートレベルの医療質問応答へ
要約

最近の人工知能(AI)システムは、囲碁からタンパク質折りたたみに至るまで、「大規模な課題(grand challenges)」において重要な進展を遂げてきた。医療知識の検索・推論能力を持ち、医師と同等の水準で医療に関する質問に回答できるようになることは、長年にわたりこうした大規模な課題の一つとされてきた。大規模言語モデル(LLMs)の発展により、医療分野における質問応答の分野で著しい進歩がもたらされた。Med-PaLMは、米国医師国家試験(USMLE)形式の問題に対して67.2%のスコアを達成し、初めて「合格ライン」を超えるモデルとして注目された。しかし、こうした先行研究は、モデルの回答が臨床医の回答と比較して依然として大きな改善余地があることを示唆していた。そこで本研究では、基礎となるLLMの向上(PaLM 2)、医療分野におけるファインチューニング、および新たなアンサンブル精査(ensemble refinement)アプローチを含むプロンプト戦略を組み合わせることで、こうしたギャップを埋める「Med-PaLM 2」を提案する。Med-PaLM 2はMedQAデータセットにおいて最大86.5%のスコアを記録し、Med-PaLMに比べ19%以上も向上し、新たな最先端(state-of-the-art)を樹立した。また、MedMCQA、PubMedQA、MMLUの臨床分野データセットにおいても、性能が既存の最先端水準に近接または上回ることを確認した。さらに、臨床応用に関連する複数の観点から、長文質問に対する詳細な人間評価を実施した。1,066件の一般ユーザー向け医療質問について、医師による二項比較評価を行った結果、臨床的有用性に関連する9軸のうち8軸において、Med-PaLM 2の回答が医師自身の回答よりも好まれた(p < 0.001)。また、新たに導入された240件の長文「敵対的(adversarial)」質問から構成されるデータセットにおいても、Med-PaLMに比べてすべての評価軸で有意な改善が見られた(p < 0.001)。これらのモデルが実世界の臨床現場で効果を発揮するかどうかを検証するためのさらなる研究が必要であるが、今回の結果は、医療質問応答における医師レベルの性能に急速に近づいていることを示している。

大規模言語モデルを用いたエキスパートレベルの医療質問応答へ | 最新論文 | HyperAI超神経