HyperAI超神経
18日前

具現化ウェブエージェント:物理デジタル領域を橋渡しする統合エージェント知能

Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
具現化ウェブエージェント:物理デジタル領域を橋渡しする統合エージェント知能
要約

今日のAIエージェントは主に隔離された状態で存在しています。オンラインから得られる大量のデジタル情報や知識を検索し推論するか、または体現した知覚、計画、行動を通じて物理世界と対話するかのいずれかですが、両方を行うことは稀です。この分離は、オンラインレシピを使用して料理をする、動的なマップデータを使用してナビゲーションを行う、またはウェブ上の知識を使用して実世界のランドマークを解釈するなど、統合された物理的およびデジタルな知能が必要なタスクを解決する能力を制限しています。私たちはEmbodied Web Agents(体現ウェブエージェント)という新しいパラダイムを導入します。これは体現と大規模ウェブ推論を滑らかにつなぐものです。この概念を具体化するために、まずEmbodied Web Agentsタスク環境を開発しました。これはリアルな3D屋内・屋外環境と機能的なウェブインターフェースを緊密に統合した一貫したシミュレーションプラットフォームです。このプラットフォームに基づいて、私たちはEmbodied Web Agentsベンチマークを構築し公開しました。これには料理、ナビゲーション、ショッピング、観光、地理位置特定など多様なタスクが含まれており、物理的およびデジタル領域間での協調的な推論が必要となります。これらのタスクはクロスドメイン知能の体系的な評価のために設計されています。実験結果は、最先端のAIシステムと人間の能力との間に著しい性能差があることを示しており、体現認知と大規模ウェブ知識アクセスの交差点における課題と機会を明確にしています。すべてのデータセット、コード、ウェブサイトはプロジェクトページhttps://embodied-web-agent.github.io/で公開されています。