15日前

ReSTがReActに出会う：多段階推論LLMエージェントにおける自己改善

Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

論文の詳細を見る

要約

複雑な自然言語質問に答えるには、多段階の推論と外部情報の統合がしばしば必要となる。いくつかのシステムは、大規模言語モデル（LLM）と知識検索を組み合わせることで、こうした質問に応える試みを行っている。しかし、これらのシステムにはさまざまな失敗ケースが存在し、外部知識との相互作用が微分不可能であるため、直接的にエンドツーエンドで訓練してこれらの欠陥を修正することはできない。こうした課題に対処するため、我々は外部知識に対して推論と行動を可能とするReActスタイルのLLMエージェントを定義した。さらに、過去の遷移（trajectory）を反復的に用いて訓練するReSTに類似した手法を用いてエージェントを精緻化し、AIフィードバックを活用した成長バッチ強化学習により、継続的な自己改善と自己蒸留を実現した。初期にプロンプトを用いた大規模モデルから出発し、アルゴリズムをわずか2回の反復実行しただけで、パラメータ数が2桁以上少ない微調整済み小規模モデルを生成でき、複雑な構成的質問応答ベンチマークにおいて、大規模モデルと同等の性能を達成した。