Command Palette
Search for a command to run...
Pierre Andrews Amine Benhalloum Gerard Moreno-Torres Bertran Matteo Bettini Amar Budhiraja et al

要約
本稿では、スケーラブルな環境構築、合成または実世界のアプリケーションの統合、エージェント駆動のオーケストレーションの実行を可能にする研究プラットフォーム「Meta Agents Research Environments(ARE)」を紹介する。AREは、各環境に独自のルール、ツール、コンテンツ、検証機構を設定できるシンプルな抽象化を提供し、モデル開発と現実世界への展開の間のギャップを埋める支援を行う。また、ARE上に構築され、一般エージェントの能力を測定することを目的としたベンチマーク「Gaia2」を提案する。Gaia2は、検索や実行に加え、曖昧さやノイズの処理、動的な環境への適応、他のエージェントとの協働、時間制約下での動作といった課題を要求する。従来のベンチマークとは異なり、Gaia2は非同期で実行され、静的環境では見えなかった新たな失敗モードを明らかにする。実験の結果、知能のスペクトル全体にわたって優位なシステムは存在せず、強力な推論能力はしばしば効率の低下を伴い、予算スケーリング曲線は飽和する傾向にあることが示された。これにより、新たなアーキテクチャおよび適応的計算戦略の開発の必要性が浮き彫りになった。さらに重要なのは、AREの抽象化により、Gaia2が他の環境へ継続的に拡張可能であり、研究コミュニティが自らの領域に適した新しいベンチマークを迅速に構築できる点である。AIの第二の時代において、前線の能力を進展させるためには、意味あるタスクの定義と堅牢な評価手法の確立がますます重要となる。