Command Palette
Search for a command to run...
Ego2Web:Egocentric Video に基づく Web Agent ベンチマーク
Ego2Web:Egocentric Video に基づく Web Agent ベンチマーク
Shoubin Yu Lei Shu Antoine Yang Yao Fu Srinivas Sunkara Maria Wang Jindong Chen Mohit Bansal Boqing Gong
概要
マルチモーダルAIエージェントは、オンラインWeb実行を伴う複雑な現実世界のワークフローの自動化をますます進めています。しかし、現在のWebエージェントベンチマークには重大な限界が存在します。すなわち、これらはWebベースのインタラクションと知覚に完全に焦点を当てており、ユーザーの現実世界の物理的環境とのグラウンディングが欠如しているという点です。この制限により、エージェントが egocentric(主観的・第一人称視点の)視覚知覚(例えばARグラス経由)を用いてユーザーの周囲の物体を認識し、それに関連するタスクをオンライン上で完了させなければならないような重要なシナリオにおける評価が不可能になっています。このギャップに対処するため、私たちは egocentric ビデオ知覚とWebエージェント実行を架橋するために設計された最初のベンチマーク「Ego2Web」を導入します。Ego2Webは、視覚的理解、Webタスク計画、およびオンライン環境でのインタラクションを必要とするWebタスクと、現実世界の第一人称視点のビデオ録画を対照的に組み合わせ、成功裡に完了させることを目的としています。私たちは、自動データ生成パイプラインと人間の検証・精製を組み合わせて利用し、eコマース、メディア検索、知識照会など、多様なWebタスクタイプにわたって、構築が適切で高品質なビデオ・タスクペアをキュレーションしました。当ベンチマークにおける正確かつスケーラブルな評価を促進するため、さらに、人間の判断と約84%の一致率を達成し、既存の評価方法よりも大幅に高い性能を有する新規のLLM-as-a-Judge自動評価手法「Ego2WebJudge」を開発しました。多様なSoTAエージェントを用いたEgo2Web上での実験により、それらの性能は未だ弱く、すべてのタスクカテゴリにおいて大幅な改善余地があることが示されました。また、タスク設計に関する包括的なアブレーションスタディを実施し、提案されたタスクにおける正確なビデオ理解の必要性と、現在のアージェントの限界を浮き彫りにしました。私たちは、Ego2Webが、物理世界とデジタル世界の両方においてシームレスに視覚化・理解・行動できる真に有能なAIアシスタントの開発にとって重要な新たなリソースとなることを期待しています。