Command Palette
Search for a command to run...
AutoWebWorld:通过有限状态机合成无限可验证的Web环境
AutoWebWorld:通过有限状态机合成无限可验证的Web环境
摘要
自主Web GUI智能体的性能高度依赖于训练数据的质量与数量。然而,一个根本性瓶颈依然存在:从真实网站收集交互轨迹成本高昂,且难以验证。由于底层状态转移过程隐匿不可见,现有方法不得不依赖不一致且代价高昂的外部验证机制来评估每一步操作的正确性。为解决这一问题,我们提出AutoWebWorld——一种新型框架,通过将网页环境建模为有限状态机(Finite State Machines, FSMs),实现可控且可验证的网页环境合成。我们利用编码智能体将FSM转化为可交互的网页。与真实网站中状态转移隐式表达不同,AutoWebWorld显式定义了所有状态、动作及转移规则。这一设计使得程序化验证成为可能:动作的正确性可依据预设规则进行校验,任务是否成功则通过判断是否抵达FSM图中的目标状态来确认。AutoWebWorld实现了完全自动化的“搜索-验证”流水线,仅以每条轨迹0.04美元的成本,便从29个多样化的网页环境中生成了超过11,663条经验证的交互轨迹。基于此类合成数据进行训练,显著提升了智能体在真实场景中的表现。我们训练的7B规模Web GUI智能体在WebVoyager基准上,仅用15步便超越所有基线模型。此外,我们观察到清晰的规模效应:随着合成数据量的增加,智能体在WebVoyager与Online-Mind2Web两个基准上的性能持续提升。
一句话总结
来自多个机构的研究人员提出了 AutoWebWorld,该框架通过有限状态机(FSM)生成可验证的合成网页环境,用于训练 GUI 代理,实现低成本、可扩展的数据生产,从而在无需人工验证的情况下提升现实世界中的性能。
主要贡献
- AutoWebWorld 引入了一种状态驱动的框架,将网页环境建模为有限状态机(FSM),从而实现对代理动作和任务成功的程序化验证,消除了对昂贵且不一致的人工或大语言模型(LLM)验证器的依赖。
- 该系统通过在 FSM 图上执行广度优先搜索并利用可执行前端渲染验证结果,自动生成 29 个合成网站和 11,663 条经验证的交互轨迹,每条轨迹成本仅 0.04 美元。
- 在此合成数据上训练的代理在 WebVoyager 上 15 步内达到最先进性能,并表现出明确的缩放规律:增加合成数据量持续提升 WebVoyager 和 Online-Mind2Web 上的真实世界基准测试结果。
引言
作者利用有限状态机合成可验证的网页环境,用于训练 GUI 代理,解决了验证真实世界交互轨迹的高成本和不一致性问题。先前方法依赖外部验证器——人工标注者或大语言模型——从不透明的 UI 反馈中判断正确性,造成昂贵且不可靠的瓶颈。AutoWebWorld 通过将明确的状态、动作和转换编码进合成网站,消除这一瓶颈,实现每条轨迹 0.04 美元的程序化验证和可扩展轨迹生成。他们的方法在 29 个环境中生成 11,663 条经验证轨迹,使用该数据训练可提升真实世界代理性能,并表现出明确的缩放规律,证明合成数据在推动基础模型泛化方面的潜力。
数据集

作者使用 AutoWebWorld——一个由 29 个程序化生成网站构建的合成 GUI 轨迹数据集——训练和评估 GUI 代理。以下是数据的组成、处理和使用方式:
-
数据集组成与来源:
每个网站由三个核心文件定义:fsm.json:编码语义转换、基于 GUI 的动作和成功标准(通过终端页面)。bfs.json:包含 BFS 生成的轨迹,含逐步语义状态和 GUI 操作流程。data.js:结构化后端数据(如供应商列表、预约、账单),用于渲染动态 UI 元素并生成视觉对齐的查询。
-
关键子集详情:
- BFS 驱动的查询:直接从
bfs.json生成,使用交互模板覆盖已验证轨迹。 - 视觉对齐的查询:基于
data.js和渲染的项目图像构建;目标项目通过视觉描述(而非名称)引用,保留交互模板。 - 截图问答查询:从
data.js中基于特征的问答模板采样,再通过 VLM 过滤,确保所查询特征在截图中可见。 - 所有子集使用五种标准化交互模式:搜索、滚动、滑块、排序、复选框——仅在对齐信号(名称 vs. 视觉描述)上不同。
- BFS 驱动的查询:直接从
-
训练数据使用:
- 在 29 个网站上合成 11,663 条经验证轨迹。
- 为减少冗余,从并行 BFS 路径中每项任务采样一条轨迹 → 1,215 条独立轨迹(总计 12,585 步)。
- 部分轨迹转换为对齐监督:提取单步并重写为 UI 定位示例。
- 最终训练集结合轨迹步骤和对齐示例 → GRPO 总计约 16k 训练步。
- 混合比例未明确说明,但对齐和轨迹数据统一为单一训练语料库。
-
处理与过滤:
- 轨迹通过 Playwright 进行严格的执行过滤:每个原子 GUI 动作被重放;任何失败(如元素缺失、按钮失效)将丢弃整个轨迹。
- 仅保留可复现执行的轨迹,配对对齐动作和状态序列。
- 查询在过滤后生成,元数据(交互模式、模板参数、阈值)存储于轻量级清单中,用于可复现分析。
- 不应用裁剪;视觉对齐依赖特征条件图像和截图可见性检查。
- 最终数据集支持内在验证(无需人工判断),状态转换和目标达成由 FSM 定义。
该流程以低成本(每轨迹 0.04 美元)生成高质量、可复现、长视野轨迹(平均 21.94 步),适用于训练和基准测试 GUI 代理处理真实世界任务。
方法
作者采用一种基于转换的多阶段流水线生成具有内在验证的合成网页环境,支持可扩展轨迹合成和可复现基准测试。如框架图所示,核心架构包含四个顺序阶段:FSM 生成、网页环境合成、通过 BFS 枚举轨迹、基于执行的过滤。
第一阶段,多智能体系统根据给定网页主题生成有限状态机(FSM)规范。FSM 提议者起草初始结构,包括页面定义、签名变量和转换规则。该候选 FSM 由自动化验证器检查结构健全性——如终端状态可达性和确定性效果应用——若违反约束则返回修订建议。改进智能体迭代优化 FSM 直至验证通过。此循环确保 FSM 编码确定性状态转换系统,其中每个状态 s=(p,σ) 包含页面标识符 p 和结构化签名 σ,捕获任务相关变量。转换由明确的前提条件和效果规则控制,确保下一状态 st+1=T(st,at) 由当前状态和动作唯一确定。

第二阶段将验证后的 FSM 转换为可执行的模拟网页环境。编码智能体在 FSM 和参考网站(用于风格锚定)指导下,遵循四阶段流水线:(1) 生成项目指南和脚手架,(2) 为每页合成 Vue 组件并迭代自审,(3) 构建项目,(4) 若构建失败则触发自修复循环。关键在于生成的 DOM 严格实现 FSM 中定义的选择器,建立语义动作与其 GUI 实现之间的确定性桥梁。
第三阶段,作者在 FSM 状态图上执行广度优先搜索(BFS),枚举从初始状态 s0 到目标状态的所有可能轨迹。每个节点对应语义状态 (p,σ),边表示可执行动作。BFS 使用签名哈希去重,仅在满足前提条件时扩展节点。目标状态通过签名变量上的谓词 G(s) 定义,例如到达终端页面或满足“购物车至少含一项商品”等约束。这确保轨迹在语义层面构造正确。
最后阶段涉及对齐与过滤。每个 BFS 衍生的动作序列通过预定义的 gui_procedure 扩展为原子 GUI 操作序列(如点击、输入),该过程指定选择器和归一化坐标。这些序列在合成网站上使用 Playwright 重放。仅成功执行所有步骤并达到预期目标状态的轨迹被保留。如图所示,此端到端流程确保收集的轨迹在语义和执行层面均有效,支持无需人工标注的大规模、可验证数据生成。
实验
- AutoWebWorld 合成的轨迹提升了 GUI 代理在真实世界导航和对齐任务中的表现,经 WebVoyager 和 ScreenSpot 基准测试验证。
- 在经验证的合成数据上训练可实现强泛化能力,Ours-7B 超越开源基线,Ours-3B 尽管仅使用 16K 步,仍超越更大模型,展现高数据效率。
- AutoWebWorld 的对齐监督在 ScreenSpot-V2 和 ScreenSpot-Pro 上持续提升性能,尤其在文本和图标定位任务中。
- 增加合成数据量在真实世界基准测试中呈现明确性能提升,成功率随样本量增加稳步上升,表明持续可扩展性。
- 对齐数据对稳定有效的 GRPO 训练至关重要;缺失会导致早期奖励激增但长期性能下降。
- AutoWebWorld 合成的网站作为具挑战性、可复现的基准,代理在这些网站上的表现劣于真实网站,确认其非平凡难度。
- 成本分析显示每步推理主导开销,突显通过减少冗余规划和改进动作约束优化的潜力。
- 训练细节确认使用 8 块 A800 GPU、BF16 精度、FlashAttention-2 和 DeepSpeed ZeRO-3 进行内存优化的高效分布式设置。
作者使用 AutoWebWorld 合成的轨迹训练 GUI 代理,在真实世界导航和对齐任务上显著超越基线模型。结果表明,即使如 Ours-3B 的小型模型在经验证合成数据上训练后亦能超越更大基线,展现强数据效率。扩大合成数据集进一步提升性能,对齐数据对训练期间稳定和持续的奖励增长至关重要。

作者使用 AutoWebWorld 合成的轨迹训练 GUI 代理,在显著少于可比模型的训练样本下实现强大的真实世界导航性能。结果表明,其 7B 模型在 WebVoyager 上超越其他开源基线,而 3B 模型超越多个更大模型,展现高数据效率。性能随合成数据量增加可预测提升,对齐监督进一步稳定并改善训练效果。

作者使用 AutoWebWorld 生成具有内在验证轨迹的合成 GUI 环境,在远少于可比方法的训练样本下实现强大的真实世界导航和对齐性能。结果表明,扩大合成数据量在真实世界基准测试中带来持续改进,对齐数据在训练期间稳定和增强奖励学习中起关键作用。合成环境亦呈现与真实网站相当的非平凡挑战,同时提供完全可控性和可复现性,且每轨迹成本显著更低。

作者使用 AutoWebWorld 生成合成 GUI 轨迹和对齐数据,显著提升代理在真实世界导航和对齐基准测试上的表现,即使训练样本有限。结果表明,扩大合成数据带来持续收益,对齐监督对训练期间稳定奖励学习至关重要。成本分析显示每步推理主导开销,突显优化规划效率而非环境执行的必要性。

作者使用 AutoWebWorld 合成的轨迹训练 GUI 代理,在 ScreenSpot-V2 和 ScreenSpot-Pro 基准测试上显著提升对齐性能。结果表明,3B 和 7B 模型在文本和图标定位任务中均持续提升,表明合成数据有效迁移到真实世界对齐挑战。在 ScreenSpot-Pro 上改进更显著,暗示合成数据更好捕捉复杂的真实世界对齐需求。
