Command Palette
Search for a command to run...
Tanvir Bhathal Asanshay Gupta

摘要
我们提出 WebSight,这是一种基于视觉的自主网络代理,能够仅通过视觉感知与网页环境进行交互,无需依赖 HTML 或 DOM 等结构化输入。在本方法的核心,我们引入了新型模型 WebSight-7B——一个针对用户界面(UI)元素交互任务优化的微调视觉语言模型,该模型基于 Wave-UI-25K 数据集中的网页专用子集,采用 LoRA(低秩适应)技术进行训练。WebSight 将该模型整合进一个模块化多代理架构中,包含规划、推理、视觉-动作以及验证四个代理模块,并通过一种情景记忆机制实现协同调度。 WebSight-7B 在 Showdown Clicks 基准测试中实现了 58.84% 的 top-1 准确率,优于多个参数量更大的通用模型,同时保持更低的延迟。完整的 WebSight 代理在 WebVoyager 基准测试中达到 68.0% 的任务成功率,超越了来自 OpenAI(61.0%)和 HCompany(Runner H,67.0%)等机构的系统表现。在完成的任务中,WebSight 的正确回答率达 97.14%,展现出极高的精度。综上所述,WebSight 与 WebSight-7B 共同树立了可解释性、鲁棒性与高效性兼具的视觉化网页导航新标准。