17 天前
VeriGUI:可验证的长链GUI数据集
Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao

摘要
近期研究致力于构建能够执行复杂图形用户界面(GUI)计算机任务的自主智能体,有望彻底改变人机交互方式。尽管已取得令人鼓舞的成果,但现有工作主要聚焦于短期交互,并依赖仅基于结果的验证机制,因而限制了其在真实GUI应用场景中的可扩展性——这些场景通常要求长期任务的分解与执行。为此,本文提出VeriGUI,一个新型的可验证长链GUI数据集,旨在促进通用GUI智能体在真实计算机环境中的开发与评估。该数据集强调两个关键维度:(1)长链复杂性,即任务被分解为一系列相互依赖的子任务,涵盖数百个步骤,且明确设计为允许任意子任务作为有效起点;(2)子任务级可验证性,支持在每个子任务内采用多样化的探索策略,同时确保每个子任务的目标均可验证且保持一致性。VeriGUI数据集涵盖桌面端与网页端的GUI任务轨迹,均由人类专家进行标注。基于多种具备不同基础模型的智能体在VeriGUI上开展的大量实验表明,当前智能体在处理长周期任务时存在显著性能差距,凸显出GUI智能体亟需更强的规划与决策能力。