17日前
ReAct:言語モデルにおける推論と行動の統合
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao

要約
大規模言語モデル(LLM)は、言語理解やインタラクティブな意思決定といったタスクにおいて、驚くべき能力を示しているが、推論(例:チェーン・オブ・トークン・プロンプティング)や行動生成(例:アクション計画の作成)の能力は、これまで別々のテーマとして研究されてきた。本論文では、LLMを用いて推論の過程とタスク固有の行動を交互に生成するアプローチを検討する。この手法により、両者の間でより高い連携効果が得られる:推論のトレースは、モデルがアクション計画を導出・追跡・更新するのを支援し、例外処理も可能にする一方で、行動は外部の情報源(知識ベースや環境など)と連携して追加情報を収集できる。本研究で提案する手法「ReAct」は、多様な言語処理および意思決定タスクに適用され、最先端のベースラインに対して優れた効果を示すとともに、推論や行動の要素を含まない手法と比較して、人間による解釈性および信頼性が向上している。具体的には、質問応答(HotpotQA)および事実検証(Fever)のタスクにおいて、ReActは単純なWikipedia APIとの連携により、チェーン・オブ・トークン推論で顕在化する幻覚(hallucination)や誤りの伝播という問題を克服し、人間が自然に理解できるようなタスク解決プロセスを生成する。また、インタラクティブな意思決定ベンチマーク(ALFWorldおよびWebShop)において、ReActはイミテーション学習および強化学習の手法を、それぞれ34%および10%の絶対的な成功確率で上回っている。さらに、提示例は1つまたは2つのコンテキスト例のみで十分である。プロジェクトサイトおよびコード:https://react-lm.github.io