计算机使用的高效代理培训
He, Yanheng ; Jin, Jiahe ; Liu, Pengfei
发布日期: 5/22/2025

摘要
扩大高质量轨迹数据的规模一直是开发类人计算机使用代理的关键瓶颈。我们介绍了PC Agent-E,这是一种高效的代理训练框架,显著减少了对大规模人类演示的依赖。从仅312条人类标注的计算机使用轨迹开始,我们通过Claude 3.7 Sonnet合成了多样化的动作决策,进一步提高了数据质量。在这些丰富轨迹上进行训练后,我们的PC Agent-E模型实现了相对141%的显著提升,在WindowsAgentArena-V2(一个我们发布的改进基准)上超越了强大的Claude 3.7 Sonnet扩展思维版本。此外,PC Agent-E在OSWorld上的不同操作系统中表现出强大的泛化能力。我们的研究结果表明,少量高质量的轨迹数据可以激发强大的计算机使用能力。