摘要

多模态 AI Agent 正日益自动化涉及在线网页执行的复杂现实世界工作流。然而，当前的 Web Agent 基准测试存在一个关键局限：它们完全聚焦于基于网页的交互与感知，缺乏对用户现实物理环境的锚定（grounding）。这一局限阻碍了在关键场景下的评估，例如当 Agent 必须利用第一人称视觉感知（如通过 AR 眼镜）识别用户周围环境中的物体，进而完成相关在线任务时。为填补这一空白，我们提出了 Ego2Web，这是首个旨在弥合第一人称视频感知与 Web Agent 执行之间鸿沟的基准测试。Ego2Web 将现实世界的第一人称视频录制与需要视觉理解、Web 任务规划及在线环境交互才能成功完成的 Web 任务进行配对。我们利用自动数据生成流水线，结合人工验证与优化，构建了涵盖多种 Web 任务类型（包括电子商务、媒体检索、知识查询等）的高质量视频 - 任务对。为了实现对该基准的准确且可扩展的评估，我们还开发了一种新颖的基于 LLM-as-a-Judge 的自动评估方法——Ego2WebJudge。该方法与人工判断的吻合度约为 84%，显著高于现有评估方法。在 Ego2Web 上对多种 SoTA Agent 进行的实验表明，其整体表现较弱，且在所有任务类别中均存在巨大的提升空间。此外，我们还对任务设计进行了全面的消融研究，突显了所提任务中准确视频理解的必要性，并揭示了当前 Agent 的局限性。我们期望 Ego2Web 能成为开发真正具备能力的 AI 助手的关键新资源，使其能够无缝地在物理世界与数字世界之间实现感知、理解与行动。

源 PDF