11日前

大規模言語モデルは医療に関する質問について推論できるか?

Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther
大規模言語モデルは医療に関する質問について推論できるか?
要約

大規模言語モデル(LLMs)はしばしば驚くべき出力を示すものの、強力な推論能力と専門分野の知識を要する現実世界のシナリオにおける性能については、依然として不明な点が多い。本研究では、GPT-3.5やLLama-2など、閉鎖型およびオープンソースのモデルが、現実世界に根ざした難解な質問に対して回答および推論を行う能力を検証することを目的とした。具体的には、医療分野で広く用いられる3つのベンチマーク(MedQA-USMLE、MedMCQA、PubMedQA)と、Chain-of-Thought(CoT、段階的思考)、少サンプル(few-shot)、リトリーバル拡張(retrieval augmentation)といった複数のプロンプト設計手法を対象とした。生成されたCoTに対して専門家によるアノテーションを実施した結果、InstructGPTが専門知識を適切に読み取り、推論し、記憶・再現する能力を有していることが明らかになった。さらに、プロンプト工学の最新の進展(少サンプルおよびアンサンブル手法)を活用することで、GPT-3.5が校正された予測分布を生成するだけでなく、3つのデータセットにおいて合格点を達成することを実証した。具体的には、MedQA-USMLEで60.2%、MedMCQAで62.7%、PubMedQAで78.2%の正解率を達成した。一方、オープンソースモデルも着実に差を縮めつつあり、Llama-2 70BはMedQA-USMLEにおいて62.5%の精度で合格を達成した。

大規模言語モデルは医療に関する質問について推論できるか? | 最新論文 | HyperAI超神経