大規模言語モデルのバイオメディカル言語理解および推論ベンチマークにおける性能評価

背景大規模言語モデル(LLM)が人間らしいテキストの解釈および生成を行う能力は、医療および臨床研究分野における応用可能性についての議論を呼んでいます。しかしながら、特定の用途に適しているかどうかを判断するための根拠に基づく意思決定を支えるデータは依然として限られています。方法本研究では、13のデータセット(「生物医学言語理解および推論ベンチマーク(BLURB)」と呼称)を用いて、4つの汎用型LLM(GPT-4、GPT-3.5-turbo、Flan-T5-XXL、Zephyr-7B-Beta)と医療専門型LLM(MedLLaMA-13B)の性能を評価・比較しました。BLURBは、医療分野における自然言語処理で一般的に求められる6つのタスクをカバーしています:名前付きエンティティ認識(NER)、関係抽出、PICO(対象集団、介入、比較対象、結果)抽出、文類似度評価、ドキュメント分類、質問応答。すべてのモデルは変更なしに評価され、提示戦略(体系的かつ再利用可能な提示フレームワークとして形式化)を用いた上で、BLURBで定義された標準的なタスク固有の評価指標に基づいて性能を測定しました。結果すべてのタスクにおいて、GPT-4が他のLLMを上回り、次いでFlan-T5-XXL、GPT-3.5-turbo、Zephyr-7B-Beta、MedLLaMA-13Bの順に性能を示しました。GPT-4およびFlan-T5-XXLにおいて最も優れた提示方法は、以前に報告されたPubMedQAタスクの最良結果を上回りました。医療分野に特化したMedLLaMA-13Bは、質問応答を除くほとんどのタスクで低いスコアを記録しました。また、タスクの説明文を戦略的に編集することで、性能に顕著な影響が生じることが確認され、提示に入力テキストと意味的に類似した例を含めることで、一貫した性能向上が見られました。結論本研究の結果は、LLMが医療分野での応用において潜在的な価値を有していることを示しており、特定用途への導入にあたっては堅牢な評価の重要性を強調しています。今後、これらの新興技術が医療現場にどのように適応可能かを継続的に探求し、人間の専門知識と組み合わせ、品質管理措置を強化することで、医療分野におけるLLMの責任あるイノベーションを実現するための重要な研究課題となるでしょう。