
摘要
图形用户界面(GUI)代理能够在多个平台(例如,Linux)上自主运行,通过与视觉元素交互来完成任务。具体而言,用户指令被分解为一系列动作建议,每个建议对应一次与GUI的交互。每次动作之后,代理会观察更新后的GUI环境以规划下一步行动。然而,这带来了两个主要挑战:i) 解决任务规划中的模糊性(即动作建议序列),选择合适的计划并非易事,因为可能存在许多有效的方案;ii) 在复杂且高分辨率的界面上准确地定位动作,即精确地与视觉目标进行交互。本文研究了上述两个挑战,并提出了我们的GUI测试时扩展代理(GTA1)。首先,为了选择最合适的动作建议,我们引入了一种测试时扩展方法。在每一步中,我们采样多个候选动作建议,并利用一个评估模型来评价和选择最合适的一个。该方法通过并发采样权衡计算资源以提高决策质量,缩短任务执行步骤,并提升整体性能。其次,我们提出了一种模型,在将选定的动作建议与其对应的视觉元素对齐时实现了更高的准确性。我们的关键见解是强化学习(RL)通过内在的目标一致性促进了视觉对齐,并奖励成功点击界面元素的行为。实验结果表明,我们的方法在多种基准测试中达到了最先进的性能。例如,GTA1-7B在Screenspot-Pro、Screenspot-V2和OSWorld-G上的准确率分别为50.1%、92.4%和67.7%。当与应用我们测试时扩展策略的规划器结合使用时,它展示了最先进的代理性能(例如,在OSWorld上的任务成功率达到了45.2%)。我们已开源了代码和模型。关键词:图形用户界面(GUI)、代理、任务规划、视觉对齐、强化学习(RL)、测试时扩展策略