9 小时前
ComputerRL:面向计算机使用Agent的端到端在线强化学习扩展
Hanyu Lai, Xiao Liu, Yanxiao Zhao, Han Xu, Hanchen Zhang, Bohao Jing, et al

摘要
我们提出 ComputerRL,一个用于自主桌面智能的框架,使智能体能够熟练操作复杂的数字工作空间。ComputerRL 采用 API-GUI 统一范式,将程序化 API 调用与直接 GUI 交互相结合,以解决机器智能体与以人为中心的桌面环境之间的固有不匹配问题。实现端到端强化学习(RL)的规模化训练对于提升多样桌面任务上的性能与泛化能力至关重要,但由于环境效率低下和长时间训练中的不稳定性,这一目标仍面临挑战。为支持可扩展且鲁棒的训练,我们构建了一个分布式强化学习基础设施,可协调数千个并行的虚拟桌面环境,从而加速大规模在线强化学习。此外,我们提出 Entropulse 训练策略,通过在强化学习与监督微调之间交替进行,有效缓解了长期训练过程中出现的熵坍缩问题。我们在开源模型 GLM-4-9B-0414 和 Qwen2.5-14B 上应用 ComputerRL,并在 OSWorld 基准测试上进行评估。基于 GLM-4-9B-0414 构建的 AutoGLM-OS-9B 达到了 48.1% 的新最优准确率,显著提升了通用智能体在桌面自动化任务中的表现。该算法与框架已被用于构建 AutoGLM(Liu 等,2024a)。