
本稿では、下位の大規模言語モデル(LLM)のファインチューニングを必要としない、適応型LLMエージェントのための新しい学習枠組みを提案する。従来のアプローチは、しばしば静的で手動で設計されたリフレクションワークフローに依存する柔軟性の欠如、あるいはLLMパラメータの勾配更新を要する計算コストの高さという課題を抱えている。これに対して、本手法は記憶ベースのオンライン強化学習により、低コストで継続的な適応を実現する。これを、神経型ケース選択ポリシーを備えた記憶拡張マルコフ意思決定過程(M-MDP)として形式化する。過去の経験は、微分可能または非パラメトリックなエピソード記憶に格納される。ポリシーは、記憶の再書き込み機構を通じて環境からのフィードバックに基づき継続的に更新され、ポリシーの改善は効率的な記憶読み取り(リトリーブ)によって達成される。本エージェントモデルは、深層研究(Deep Research)の設定において具体化され、AgentFlyとして実装された。その結果、GAIA検証セットにおいてトップ1(Pass@3: 87.88%)を達成し、テストセットでは79.40%の性能を示した。また、DeepResearcherデータセットではF1スコア66.6%、PMスコア80.4%を達成し、従来の訓練ベースの最先端手法を上回った。特に、ケースベースの記憶により、分布外タスクにおいて4.7%~9.6%の絶対的な性能向上が確認された。本手法は、勾配更新を一切行わずに継続的かつリアルタイムでの学習が可能な汎用型LLMエージェントの開発に向けたスケーラブルで効率的な道筋を提供し、機械学習の分野における開かれたスキル習得および深層研究の実現に貢献する。コードは https://github.com/Agent-on-the-Fly/AgentFly にて公開されている。