概要

大規模言語モデル（LLM）agentsは幅広いベンチマークで強力なパフォーマンスを達成しているが、ほとんどの評価は静的環境を前提としている。一方、実世界での展開は本質的に動的であり、agentsが変化する環境および更新されたタスク条件に合わせて、自身の知識、スキル、行動を継続的に適合させる必要がある。この課題に対処するため、本稿ではEvoArenaを導入する。これは、ターミナル、ソフトウェア、ソーシャルの各ドメインにわたる環境変化を、段階的な更新のシーケンスとしてモデル化するベンチマークスイートである。さらに、EvoMemを提案する。これはパッチベースのメモリパラダイムであり、メモリの進化を構造化された更新履歴として記録することで、agentsが自身のメモリの変化を通じて環境の進化について推論することを可能にする。実験結果から、現在のagentsはEvoArenaにおいて苦戦しており、動的に変化するターミナル、ソフトウェア、ソーシャル・プリファレンスの各ドメイン全体で平均精度39.6%にとどまっていることが示された。EvoMemは一貫してパフォーマンスを向上させ、EvoArenaにおいて平均1.5%の向上をもたらすとともに、GAIAやLoCoMoなどの標準ベンチマークでもそれぞれ6.1%、4.8%の向上を示した。個々のタスクのみならず、EvoMemはEvoArenaにおいてチェーンレベルの精度をさらに3.7%向上させる。この環境では、関連する進化サブタスクの連続したシーケンスを完了することが成功の条件となる。機構的分析により、EvoMemがメモリ内での証拠の捕捉を向上させ、完全な進化環境状態のより適切な保持につながっていることが示された。本研究の結果は、信頼性の高いagentsの展開を実現するためには、評価プロセスとメモリ機構の両方において進化をモデル化することが重要であることを浮き彫りにする。

ソースPDF コードを表示