18 天前
SEAgent:具备从经验中自主学习能力的自演化计算机使用代理
Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, et al

摘要
将大型视觉-语言模型(LVLMs)重新用于计算机使用代理(CUAs),已取得显著进展,其主要驱动力来自于人工标注数据。然而,这些模型在面对新型或专业性软件时往往表现不佳,尤其是在缺乏人工标注的场景下。为应对这一挑战,我们提出SEAgent——一种智能体自演化框架,使计算机使用代理能够通过与陌生软件的交互实现自主进化。具体而言,SEAgent赋予计算机使用代理通过经验学习自主掌握新型软件环境的能力,代理在新软件中进行探索,通过迭代式的试错学习,并逐步完成由简单到复杂的自动生成任务。 为实现这一目标,我们设计了一种世界状态模型(World State Model),用于分步评估智能体的行为轨迹;同时构建了一个课程生成器(Curriculum Generator),能够生成日益多样化且更具挑战性的任务。智能体的策略通过经验学习进行更新,该过程包含对失败动作的对抗性模仿,以及对成功动作的群体相对策略优化(Group Relative Policy Optimization, GRPO)。此外,我们提出一种“专家到通用”的训练策略,整合多个专家代理所积累的个体经验,从而促进更强通用型CUA的形成,使其具备持续自主进化的潜力。 最终,这一统一的智能体在专有软件上的表现超越了多个独立专家代理的集成系统。我们在OS-World平台中的五个新型软件环境中验证了SEAgent的有效性。与性能优异的开源CUA——UI-TARS相比,我们的方法在成功率上实现了23.2%的显著提升,从11.3%提高至34.5%。