HyperAI超神经
2 days ago

UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理

Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, et al
UI-AGILE:通过有效的强化学习和精确的推理期对齐推进GUI代理
摘要

多模态大语言模型(Multimodal Large Language Models,MLLMs)的出现推动了图形用户界面(Graphical User Interface,GUI)代理能力的重大进展。然而,现有的GUI代理训练和推理技术在推理设计、奖励机制的有效性以及视觉噪声处理方面仍面临诸多挑战。为了解决这些问题,我们提出了UI-AGILE,这是一个在训练和推理阶段均能提升GUI代理能力的综合性框架。 在训练阶段,我们提出了一套对监督微调(Supervised Fine-Tuning,SFT)过程的改进方案:1)一种连续奖励函数(Continuous Reward function),用于激励高精度的视觉定位(grounding);2)一种“简单思考”奖励("Simple Thinking" reward),用于在规划效率与视觉定位准确性之间取得平衡;3)一种基于裁剪的重采样策略(Cropping-based Resampling strategy),用于缓解稀疏奖励问题,并提升在复杂任务上的学习效果。 在推理阶段,我们提出了一种“选择性分解定位”方法(Decomposed Grounding with Selection),该方法通过将图像分解为更小、更易处理的部分,显著提高了在高分辨率显示器上的定位准确性。 实验结果表明,UI-AGILE在两个基准测试ScreenSpot-Pro和ScreenSpot-v2上均达到了当前最先进的性能。例如,在ScreenSpot-Pro上,结合我们提出的训练和推理增强方法,相较于最佳基线模型,定位准确率提升了23%。