HyperAIHyperAI

Command Palette

Search for a command to run...

Ego2Web:基于第一人称视角视频的 Web Agent 基准测试

Shoubin Yu Lei Shu Antoine Yang Yao Fu Srinivas Sunkara Maria Wang Jindong Chen Mohit Bansal Boqing Gong

摘要

多模态 AI Agent 正日益自动化涉及在线网页执行的复杂现实世界工作流。然而,当前的 Web Agent 基准测试存在一个关键局限:它们完全聚焦于基于网页的交互与感知,缺乏对用户现实物理环境的锚定(grounding)。这一局限阻碍了在关键场景下的评估,例如当 Agent 必须利用第一人称视觉感知(如通过 AR 眼镜)识别用户周围环境中的物体,进而完成相关在线任务时。为填补这一空白,我们提出了 Ego2Web,这是首个旨在弥合第一人称视频感知与 Web Agent 执行之间鸿沟的基准测试。Ego2Web 将现实世界的第一人称视频录制与需要视觉理解、Web 任务规划及在线环境交互才能成功完成的 Web 任务进行配对。我们利用自动数据生成流水线,结合人工验证与优化,构建了涵盖多种 Web 任务类型(包括电子商务、媒体检索、知识查询等)的高质量视频 - 任务对。为了实现对该基准的准确且可扩展的评估,我们还开发了一种新颖的基于 LLM-as-a-Judge 的自动评估方法——Ego2WebJudge。该方法与人工判断的吻合度约为 84%,显著高于现有评估方法。在 Ego2Web 上对多种 SoTA Agent 进行的实验表明,其整体表现较弱,且在所有任务类别中均存在巨大的提升空间。此外,我们还对任务设计进行了全面的消融研究,突显了所提任务中准确视频理解的必要性,并揭示了当前 Agent 的局限性。我们期望 Ego2Web 能成为开发真正具备能力的 AI 助手的关键新资源,使其能够无缝地在物理世界与数字世界之间实现感知、理解与行动。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供