HyperAIHyperAI

Command Palette

Search for a command to run...

ReSTがReActに出会う:多段階推論LLMエージェントにおける自己改善

概要

複雑な自然言語質問に答えるには、多段階の推論と外部情報の統合がしばしば必要となる。いくつかのシステムは、大規模言語モデル(LLM)と知識検索を組み合わせることで、こうした質問に応える試みを行っている。しかし、これらのシステムにはさまざまな失敗ケースが存在し、外部知識との相互作用が微分不可能であるため、直接的にエンドツーエンドで訓練してこれらの欠陥を修正することはできない。こうした課題に対処するため、我々は外部知識に対して推論と行動を可能とするReActスタイルのLLMエージェントを定義した。さらに、過去の遷移(trajectory)を反復的に用いて訓練するReSTに類似した手法を用いてエージェントを精緻化し、AIフィードバックを活用した成長バッチ強化学習により、継続的な自己改善と自己蒸留を実現した。初期にプロンプトを用いた大規模モデルから出発し、アルゴリズムをわずか2回の反復実行しただけで、パラメータ数が2桁以上少ない微調整済み小規模モデルを生成でき、複雑な構成的質問応答ベンチマークにおいて、大規模モデルと同等の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ReSTがReActに出会う:多段階推論LLMエージェントにおける自己改善 | 記事 | HyperAI超神経