Command Palette
Search for a command to run...

摘要
在网页、桌面和移动环境之间实现跨平台泛化,仍是当前面临的一大挑战,因为以往的系统依赖于特定于环境的接口,从而限制了其在多平台间的部署能力。我们提出 Surfer 2,一种完全基于视觉观测的统一架构,在三类环境中均实现了当前最优性能。Surfer 2 集成了分层上下文管理、解耦的规划与执行机制,以及具备自验证与自适应恢复能力的系统设计,从而在长周期任务中实现可靠运行。在 WebVoyager 上,系统达到 97.1% 的准确率;在 WebArena 上为 69.6%;在 OSWorld 上为 60.1%;在 AndroidWorld 上为 87.1%,所有指标均超越此前所有系统,且无需针对具体任务进行微调。在允许多次尝试的情况下,Surfer 2 在所有基准测试中均超过人类表现。这些结果表明,通过系统化协调可显著增强基础模型的能力,仅通过视觉交互即可实现通用计算机控制。同时,这也凸显出对下一代视觉-语言模型的需求,以实现成本与效率之间的帕累托最优。