Command Palette

Search for a command to run...

2 个月前

WebSight:一种面向视觉的鲁棒网络智能体架构

Tanvir Bhathal Asanshay Gupta

WebSight:一种面向视觉的鲁棒网络智能体架构

摘要

我们提出 WebSight,这是一种基于视觉的自主网络代理,能够仅通过视觉感知与网页环境进行交互,无需依赖 HTML 或 DOM 等结构化输入。在本方法的核心,我们引入了新型模型 WebSight-7B——一个针对用户界面(UI)元素交互任务优化的微调视觉语言模型,该模型基于 Wave-UI-25K 数据集中的网页专用子集,采用 LoRA(低秩适应)技术进行训练。WebSight 将该模型整合进一个模块化多代理架构中,包含规划、推理、视觉-动作以及验证四个代理模块,并通过一种情景记忆机制实现协同调度。 WebSight-7B 在 Showdown Clicks 基准测试中实现了 58.84% 的 top-1 准确率,优于多个参数量更大的通用模型,同时保持更低的延迟。完整的 WebSight 代理在 WebVoyager 基准测试中达到 68.0% 的任务成功率,超越了来自 OpenAI(61.0%)和 HCompany(Runner H,67.0%)等机构的系统表现。在完成的任务中,WebSight 的正确回答率达 97.14%,展现出极高的精度。综上所述,WebSight 与 WebSight-7B 共同树立了可解释性、鲁棒性与高效性兼具的视觉化网页导航新标准。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供