Command Palette
Search for a command to run...
ClawGUI:一个用于 Training、Evaluating 和 Deploying GUI Agents 的统一 Framework
ClawGUI:一个用于 Training、Evaluating 和 Deploying GUI Agents 的统一 Framework
Fei Tang Zhiqiong Lu Boxuan Zhang Weiming Lu Jun Xiao Yueting Zhuang Yongliang Shen
摘要
GUI agent 通过视觉界面而非编程 API 来驱动应用程序,通过点击、滑动和按键操作与任意软件进行交互,从而触达了基于 CLI 的 agent 无法覆盖的长尾应用场景。然而,该领域的进展瓶颈并不在于建模能力,而在于缺乏一套连贯的全栈基础设施:在线 RL 训练受限于环境不稳定和封闭的 pipeline;评估协议在不同研究之间存在隐性偏差;且训练出的 agent 很难在真实设备上的真实用户场景中落地。为此,我们推出了 ClawGUI,这是一个旨在通过单一框架解决上述三个痛点的开源框架。ClawGUI-RL 提供了首个开源的 GUI agent RL 基础设施,经验证可同时支持并行虚拟环境和真实物理设备,并集成了 GiGPO 与 Process Reward Model,以实现密集的 step 级监督。ClawGUI-Eval 在 6 个 benchmark 和 11 多个模型上强制执行完全标准化的评估 pipeline,相对于官方 baseline 实现了 95.8% 的复现率。ClawGUI-Agent 则通过 12 多个聊天平台,利用混合 CLI-GUI 控制和持久化个性化 memory,将训练好的 agent 引入 Android、HarmonyOS 和 iOS 系统。在这一 pipeline 内进行端到端训练后,ClawGUI-2B 在 MobileWorld GUI-Only 任务上达到了 17.1% 的 Success Rate,比同规模的 MAI-UI-2B baseline 高出 6.0%。
一句话总结
ClawGUI 是一个开源的统一框架,通过集成以下组件解决了 GUI agent 开发中的基础设施空白:ClawGUI-RL,利用 GiGPO 结合 Process Reward Model,在虚拟和物理设备上进行强化学习;ClawGUI-Eval,在六个基准测试中提供标准化流水线,复现准确率达 95.8%;以及 ClawGUI-Agent,支持在 Android、HarmonyOS 和 iOS 上进行跨平台部署。
核心贡献
- 本文介绍了 ClawGUI-RL,这是一个开源的强化学习基础设施,通过将 GiGPO 与 Process Reward Model 相结合以实现密集的步级(step-level)监督,从而同时支持并行虚拟环境和真实物理设备。
- 该工作建立了 ClawGUI-Eval,这是一个涵盖 6 个基准测试和 11 个以上模型的标准化评估流水线,相对于官方基准实现了 95.8% 的复现率。
- 研究人员开发了 ClawGUI-Agent,通过混合 CLI-GUI 控制和持久化个性化记忆,利用 12 个以上的聊天平台实现 Android、HarmonyOS 和 iOS 的跨平台部署。
引言
GUI agent 通过直接与视觉界面交互而非依赖程序化 API,对于自动化数字任务至关重要。虽然该领域的研究改进了元素定位和导航,但目前的进展因缺乏集成基础设施而停滞不前。现有的工作流程面临着在线强化学习 (RL) 环境不稳定、评估协议不一致导致跨论文比较不可靠,以及实验室训练与真实设备部署之间存在显著差距等问题。
作者利用名为 ClawGUI 的统一开源框架来弥合整个 agent 生命周期中的这些差距。该框架引入了 ClawGUI-RL,利用密集的步级监督为虚拟模拟器和物理设备提供可扩展的训练支持。它还包括 ClawGUI-Eval,一个确保在多个基准测试中具有高复现性的标准化流水线,以及 ClawGUI-Agent,一个能够在 Android、HarmonyOS 和 iOS 上实现混合 CLI 和 GUI 控制的部署系统。为了验证该框架,作者训练了 ClawGUI-2B,它在 MobileWorld 基准测试上的表现显著优于同等规模的现有模型。
数据集

作者引入了 ClawGUI-Eval,这是一个旨在评估 GUI grounding 和导航能力的全面评估框架。数据集详情如下:
- 基准测试构成: 评估套件涵盖六个不同的基准测试,以确保场景覆盖的多样性:ScreenSpot-Pro、ScreenSpot-V2、UI-Vision、MMBench-GUI、OSWorld-G 和 AndroidControl。
- 模型覆盖范围: 该框架旨在评估 11 个以上的不同模型,包括各种视觉语言模型,如 Qwen3-VL、Qwen2.5-VL、UI-TARS 和 Gemini 等。
- 使用与获取: 作者提供了公开发布的推理结果和评估代码,以促进社区对研究的复现和未来的扩展。
方法
作者引入了 ClawGUI,这是一个旨在支持 GUI agent 开发完整生命周期的统一框架,涵盖了训练、评估和部署。整体架构分为三个主要模块:用于可扩展在线强化学习 (RL) 训练的 ClawGUI-RL,用于标准化和可复现评估的 ClawGUI-Eval,以及用于真机部署和人类交互的 ClawGUI-Agent。这些模块通过一个流水线相互连接,实现了从模型开发到实际应用的无缝过渡。
ClawGUI-RL 负责可扩展的在线 RL 训练,并构建在 verl 框架之上,支持包括 Reinforce++、PPO、GSPO、GRPO 和 GiGPO 在内的一系列 RL 算法。该模块利用两级奖励公式来解决长程 GUI 任务中稀疏奖励信号的挑战。主要的奖励信号是二元结果奖励,在 episode 结束时,任务成功分配为 1,失败分配为 0。为了缓解该信号的稀疏性,ClawGUI-RL 集成了一个 Process Reward Model (PRM),在每次动作后生成密集的步级奖励。PRM 通过分析前后的截图以及完整的动作历史,评估当前动作是否对完成任务有意义贡献,从而产生每步得分,并将其与结果奖励相结合。这种密集反馈使优化器能够在整个 episode 中将有效动作与死胡同区分开来。
ClawGUI-RL 中的 RL 训练器采用了先进的优势估计技术来提高训练效率。GRPO 通过对共享相同任务的一组 rollouts 进行回报归一化来估计优势,但其统一的 episode 级优势分配对于长程 GUI 交互来说过于粗糙。相比之下,GiGPO 通过分层优势估计方法解决了这一局限性。在 episode 级别,GiGPO 保留了完整轨迹间的宏观相对优势;而在步级别,它使用锚点状态分组机制,将不同 rollouts 中遇到相同中间环境状态的步骤进行聚类。随后,通过折扣回报归一化在每个子组内估计微观相对优势,从而实现了细粒度的每步信用分配,而无需学习价值网络或额外的 rollouts。

ClawGUI-RL 中的环境管理系统将所有设备后端抽象到统一接口之后,允许在同一个训练循环中交替使用虚拟环境和物理设备。虚拟环境通过 MobileWorld 使用基于 Docker 的 Android 模拟器并行启动,每个环境都为训练 worker 暴露一个后端 URL。这些环境遵循四个阶段的生命周期:任务重置、任务评估、备用服务器轮换和拆卸。任务重置确保每个 episode 都有干净的起始条件,而任务评估则利用系统级 root 权限,通过直接检查应用状态和数据库记录来进行可靠的完成验证,并辅以 MLLM-as-judge 来评估最终屏幕状态。备用服务器轮换通过自动更换不健康的容器来维持训练稳定性,定期拆卸则防止状态积累。
对于真机训练,ClawGUI-RL 通过相同的统一接口支持物理 Android 设备或云手机。这引入了一些挑战,例如需要手动编写任务以确保在物理硬件上的可执行性和可验证性,以及缺乏用于自动状态验证的系统级 root 权限。为了解决这个问题,系统依靠 MLLM-as-judge 通过根据任务指令评估最终屏幕状态来判断任务是否完成。环境管理器还包含健康检查、崩溃恢复和真机训练的逻辑,确保在不同硬件上的稳健运行。

ClawGUI-Eval 提供了一个标准化且可复现的评估框架,将评估过程分解为三个解耦阶段:Infer(推理)、Judge(评判)和 Metric(指标)。推理阶段使用通过 transformers 进行的本地 GPU 推理或通过任何 OpenAI 兼容端点进行的远程 API 推理,从目标模型生成原始预测。多 GPU 并行推理通过 Python multiprocessing 自动处理,分片级检查点允许中断的运行在无需重新计算的情况下恢复。评判阶段解析原始模型输出,并使用特定于基准测试的评判器根据 ground truth 进行评估,例如用于标准 GUI grounding 基准测试的 point-in-box 评判器,或用于 OSWorld-G 的多边形及拒绝感知评判器。每个评判器都会产生一个样本级的正确性标签。指标阶段将这些标签聚合为最终的准确率分数,并按平台、UI 元素类型和任务类别进行细分,以便进行细粒度分析。这种模块化设计允许任何单个阶段独立重新运行,便于高效更新和调试。

ClawGUI-Agent 通过具有持久记忆和技能的消息驱动 agent 循环实现真机部署和人类交互。该 agent 支持两种部署模式:远程控制,用户从包括飞书、钉钉、Telegram、Discord、Slack 和 QQ 在内的 12 个以上的聊天平台发布任务以远程控制目标手机;以及本地控制,用户直接从运行在手机上的聊天应用发送指令,允许 agent 在无需额外硬件或云端中继的情况下接管本地设备。该 agent 包含一个持久化的个性化记忆系统,能够自动从交互中提取结构化事实,如联系人姓名、常用应用程序和用户习惯,并将其存储为向量嵌入。在后续任务中,系统会检索并注入语义最相似的前 k 个记忆到系统上下文中,使 agent 能够识别重复出现的实体并随着时间的推移适应个人用户模式。
ClawGUI-Agent 将 ClawGUI-Eval 暴露为内置的工具技能,允许用户通过单个自然语言命令触发完整的基准测试评估流水线。收到指令后,agent 会自动执行环境验证、启动多 GPU 并行推理、运行评判器、计算指标,并返回包含与官方基准对比的结构化结果报告。agent 通过一个消息驱动循环运行,包括感知屏幕、推理与规划、执行动作(例如点击、输入、滚动)以及返回结果。该框架支持移动端、Web 浏览器和桌面设备的混合操作,并包含用于集成各种语言模型的多模型支持。
实验
ClawGUI 框架通过一个端到端流水线进行评估,该流水线由可扩展的强化学习基础设施、标准化的评估套件和部署就绪的 agent 系统组成。训练实验表明,密集的步级信用分配和稳健的环境管理使得小模型能够显著超越规模大得多的未训练模型。此外,评估模块在多个基准测试中实现了很高的复现率,证实了标准化协议可以解决当前 GUI agent 研究中缺乏可比性的问题。
作者提出了一个能够在多个基准测试和模型上实现 GUI agent 可复现评估的框架。结果显示,开源和闭源模型都具有很高的复现率,这表明评估差异源于基础设施而非内在局限性。标准化的评估流水线在 6 个基准测试和 11 个以上的模型中实现了 95.8% 的复现率。开源模型的复现率为 95.7%,而前沿模型在 ScreenSpot-Pro 上达到了 100%。闭源模型使用两阶段 Zoom 范式进行评估,在无法获取模型的情况下恢复了官方性能。

该表比较了 GUI agent 训练中的两种奖励类型,结果显示密集的步级监督比 episode 级奖励具有更高的成功率。结果表明,细粒度的信用分配显著提高了长程 GUI 任务的性能。与 episode 级奖励相比,密集的步级奖励提高了成功率。细粒度的信用分配增强了 GUI 任务中的策略训练。步级监督相比粗糙的 episode 级奖励带来了实质性的提升。

作者在 MobileWorld GUI-Only 基准测试上比较了各种 GUI agent 的成功率,突出了其提出的模型相对于现有系统的性能。结果显示,他们的模型实现了具有竞争力的成功率,在展示其训练和评估框架有效性的同时,超越了多个基准模型。所提出的模型在 MobileWorld GUI-Only 基准测试上实现的成功率超过了多个基准模型。该框架实现了可复现的评估,在多个基准测试和模型中实现了很高的复现率。尽管规模较小,所提出模型的成功率仍能与更大的模型相媲美,这表明了有效训练基础设施的重要性。

作者在多个基准测试中评估了一个可复现的 GUI agent 框架,并比较了不同的奖励结构和 agent 性能。结果表明,标准化的评估流水线确保了各种模型的高复现率,而密集的步级监督在长程任务中显著优于粗糙的 episode 级奖励。此外,所提出的模型在 MobileWorld 基准测试上实现了具有竞争力的成功率,超越了多个基准,突显了训练基础设施的有效性。