5 个月前

摘要

我们提出 WebSight，这是一种基于视觉的自主网络代理，能够仅通过视觉感知与网页环境进行交互，无需依赖 HTML 或 DOM 等结构化输入。在本方法的核心，我们引入了新型模型 WebSight-7B——一个针对用户界面（UI）元素交互任务优化的微调视觉语言模型，该模型基于 Wave-UI-25K 数据集中的网页专用子集，采用 LoRA（低秩适应）技术进行训练。WebSight 将该模型整合进一个模块化多代理架构中，包含规划、推理、视觉-动作以及验证四个代理模块，并通过一种情景记忆机制实现协同调度。

WebSight-7B 在 Showdown Clicks 基准测试中实现了 58.84% 的 top-1 准确率，优于多个参数量更大的通用模型，同时保持更低的延迟。完整的 WebSight 代理在 WebVoyager 基准测试中达到 68.0% 的任务成功率，超越了来自 OpenAI（61.0%）和 HCompany（Runner H，67.0%）等机构的系统表现。在完成的任务中，WebSight 的正确回答率达 97.14%，展现出极高的精度。综上所述，WebSight 与 WebSight-7B 共同树立了可解释性、鲁棒性与高效性兼具的视觉化网页导航新标准。

源 PDF