17日前

ReAct：言語モデルにおける推論と行動の統合

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao

要約

大規模言語モデル（LLM）は、言語理解やインタラクティブな意思決定といったタスクにおいて、驚くべき能力を示しているが、推論（例：チェーン・オブ・トークン・プロンプティング）や行動生成（例：アクション計画の作成）の能力は、これまで別々のテーマとして研究されてきた。本論文では、LLMを用いて推論の過程とタスク固有の行動を交互に生成するアプローチを検討する。この手法により、両者の間でより高い連携効果が得られる：推論のトレースは、モデルがアクション計画を導出・追跡・更新するのを支援し、例外処理も可能にする一方で、行動は外部の情報源（知識ベースや環境など）と連携して追加情報を収集できる。本研究で提案する手法「ReAct」は、多様な言語処理および意思決定タスクに適用され、最先端のベースラインに対して優れた効果を示すとともに、推論や行動の要素を含まない手法と比較して、人間による解釈性および信頼性が向上している。具体的には、質問応答（HotpotQA）および事実検証（Fever）のタスクにおいて、ReActは単純なWikipedia APIとの連携により、チェーン・オブ・トークン推論で顕在化する幻覚（hallucination）や誤りの伝播という問題を克服し、人間が自然に理解できるようなタスク解決プロセスを生成する。また、インタラクティブな意思決定ベンチマーク（ALFWorldおよびWebShop）において、ReActはイミテーション学習および強化学習の手法を、それぞれ34%および10%の絶対的な成功確率で上回っている。さらに、提示例は1つまたは2つのコンテキスト例のみで十分である。プロジェクトサイトおよびコード：https://react-lm.github.io