HyperAI超神经

打破数据障碍 -- 通过任务泛化构建GUI代理

Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
发布日期: 4/16/2025
打破数据障碍 -- 通过任务泛化构建GUI代理
摘要

图形用户界面(GUI)代理提供了跨平台的解决方案,用于自动化复杂的数字任务,具有显著的潜力来变革生产力工作流程。然而,其性能通常受到高质量轨迹数据稀缺性的限制。为了解决这一限制,我们提出在专门的中期训练阶段,使用数据丰富、推理密集型的任务来训练视觉语言模型(VLMs),然后研究这些任务的融入如何促进对GUI规划场景的泛化能力。具体而言,我们探索了一系列具有现成指令调优数据的任务,包括GUI感知、多模态推理和文本推理。通过在11个中期训练任务上的广泛实验,我们证明了:(1)任务泛化非常有效,在大多数设置下都带来了显著的改进。例如,多模态数学推理使AndroidWorld上的性能绝对提高了6.3%。值得注意的是,仅基于文本的数学数据显著提升了GUI网络代理的性能,在WebArena上实现了5.6%的改进,在AndroidWorld上实现了5.4%的改进,这表明从基于文本到视觉领域的显著跨模态泛化;(2)与之前的假设相反,GUI感知数据——之前被认为与GUI代理任务高度相关并广泛用于训练——对最终性能的影响相对有限;(3)基于这些见解,我们确定了最有效的中期训练任务,并编制了优化的数据集混合体,从而在WebArena上实现了8.0%的绝对性能提升,在AndroidWorld上实现了12.2%的提升。我们的研究为GUI代理的跨领域知识迁移提供了宝贵的见解,并为应对这一新兴领域中的数据稀缺性挑战提供了一种实用的方法。代码、数据和模型将在https://github.com/hkust-nlp/GUIMid上提供。