6ヶ月前

概要

言語モデル（LM）は、さまざまな意思決定タスクにおいて潜在的な成果を示しているが、単純な行動プロセスに依存しているため、自律エージェントとしての広範な展開には限界がある。本論文では、推論、行動、計画の能力を統合する初めての汎用フレームワークである「Language Agent Tree Search（LATS）」を提案する。LATSは、LMの文脈内学習（in-context learning）能力を活用し、モンテカルロ木探索（Monte Carlo Tree Search）を統合することで、LMをエージェントとして機能可能にする。さらに、LM駆動の価値関数と自己反映（self-reflection）を導入することで、効果的な探索と強化された意思決定を実現する。本手法の重要な特徴の一つとして、外部フィードバックを提供する環境の組み込みがある。これにより、従来の技術に見られる制約を越えた、より意図的で適応的な問題解決メカニズムが実現される。複数のドメイン（プログラミング、対話型質問応答（QA）、ウェブナビゲーション、数学）における実験評価により、LATSが意思決定において有効性と汎用性を示すことが確認された。また、推論性能は競争力のある水準あるいは向上が見られることも明らかになった。特に、GPT-4を用いたHumanEvalにおけるプログラミングタスクでは、SOTA（最先端）水準の pass@1 正解率（92.7%）を達成した。また、GPT-3.5を用いたWebShopにおけるウェブナビゲーションでは、勾配ベースの微調整と同等の性能（平均スコア75.9）を、勾配を用いない手法で達成した。コードは以下のURLで公開されている：https://github.com/lapisrocks/LanguageAgentTreeSearch

ソースPDF