2 个月前

SeeClick:利用GUI接地技术实现高级视觉GUI代理

Kanzhi Cheng; Qiushi Sun; Yougang Chu; Fangzhi Xu; Yantao Li; Jianbing Zhang; Zhiyong Wu
SeeClick:利用GUI接地技术实现高级视觉GUI代理
摘要

图形用户界面(GUI)代理旨在自动化数字设备上的复杂任务,例如智能手机和平板电脑。现有的大多数GUI代理通过提取的结构化数据与环境进行交互,这些数据可能相当冗长(如HTML)且有时无法访问(如在桌面环境中)。为了解决这一问题,我们提出了一种新型的视觉GUI代理——SeeClick,该代理仅依赖屏幕截图实现任务自动化。在我们的初步研究中,我们发现开发视觉GUI代理面临的一个关键挑战是GUI定位——即根据指令准确地定位屏幕元素的能力。为了应对这一挑战,我们建议通过GUI定位预训练来增强SeeClick,并设计了一种方法以自动收集GUI定位数据。此外,我们还创建了ScreenSpot——首个涵盖移动、桌面和网络环境的现实主义GUI定位基准。经过预训练后,SeeClick在ScreenSpot上相较于多种基线模型表现出显著的改进。此外,对三个广泛使用的基准进行全面评估的结果一致支持我们的发现,即GUI定位的进步直接关联到下游GUI代理任务性能的提升。该模型、数据和代码可在https://github.com/njucckevin/SeeClick 获取。

SeeClick:利用GUI接地技术实现高级视觉GUI代理 | 最新论文 | HyperAI超神经