15日前
ReSTがReActに出会う:多段階推論LLMエージェントにおける自己改善
Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

要約
複雑な自然言語質問に答えるには、多段階の推論と外部情報の統合がしばしば必要となる。いくつかのシステムは、大規模言語モデル(LLM)と知識検索を組み合わせることで、こうした質問に応える試みを行っている。しかし、これらのシステムにはさまざまな失敗ケースが存在し、外部知識との相互作用が微分不可能であるため、直接的にエンドツーエンドで訓練してこれらの欠陥を修正することはできない。こうした課題に対処するため、我々は外部知識に対して推論と行動を可能とするReActスタイルのLLMエージェントを定義した。さらに、過去の遷移(trajectory)を反復的に用いて訓練するReSTに類似した手法を用いてエージェントを精緻化し、AIフィードバックを活用した成長バッチ強化学習により、継続的な自己改善と自己蒸留を実現した。初期にプロンプトを用いた大規模モデルから出発し、アルゴリズムをわずか2回の反復実行しただけで、パラメータ数が2桁以上少ない微調整済み小規模モデルを生成でき、複雑な構成的質問応答ベンチマークにおいて、大規模モデルと同等の性能を達成した。