HyperAI超神经
9 days ago

GUI-G^2:用于 GUI 定位的高斯奖励建模

Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
GUI-G^2:用于 GUI 定位的高斯奖励建模
摘要

图形用户界面(GUI)定位将自然语言指令映射到精确的界面位置,以实现自主交互。当前的强化学习方法使用二元奖励,将元素视为命中或未命中的目标,从而生成稀疏信号,忽略了空间交互的连续性质。受人类点击行为启发,这种行为自然地形成了以目标元素为中心的高斯分布,我们引入了GUI 高斯定位奖励(GUI-G^2),这是一种基于原理的奖励框架,将GUI元素建模为界面上的连续高斯分布。GUI-G^2结合了两种协同机制:高斯点奖励通过以元素中心为中心的指数衰减分布来建模精确定位;而覆盖奖励则通过测量预测的高斯分布与目标区域之间的重叠来评估空间对齐情况。为了处理不同规模的元素,我们开发了一种自适应方差机制,根据元素尺寸校准奖励分布。该框架将GUI定位从稀疏二元分类转变为密集连续优化,其中高斯分布生成丰富的梯度信号,引导模型向最优交互位置发展。在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro基准测试中的大量实验表明,GUI-G^2显著优于最先进的方法UI-TARS-72B,在ScreenSpot-Pro上取得了最高24.7%的改进。我们的分析显示,连续建模提供了对界面变化更好的鲁棒性和对未见过布局更强的泛化能力,为GUI交互任务的空间推理建立了一个新的范式。