HyperAI超神经

三思而后行:GUI-Critic-R1 模型在 GUI 自动化术前错误诊断中的应用

Wanyan, Yuyang ; Zhang, Xi ; Xu, Haiyang ; Liu, Haowei ; Wang, Junyang ; Ye, Jiabo ; Kou, Yutong ; Yan, Ming ; Huang, Fei ; Yang, Xiaoshan ; Dong, Weiming ; Xu, Changsheng
发布日期: 6/11/2025
三思而后行:GUI-Critic-R1 模型在 GUI 自动化术前错误诊断中的应用
摘要

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态推理任务中得到了广泛应用,其中包括图形用户界面(Graphical User Interface, GUI)自动化。与一般的离线多模态任务不同,GUI 自动化是在在线交互环境中执行的,需要根据环境的实时状态进行逐步决策。这一任务对每一步决策错误的容忍度较低,因为任何错误都可能累积影响整个过程,并可能导致不可逆的结果,如删除或支付操作。为了解决这些问题,我们引入了一种预操作批评机制,在实际执行前通过推理潜在结果和行动的正确性来提供有效的反馈。具体而言,我们提出了一种建议感知梯度相对策略优化(Suggestion-aware Gradient Relative Policy Optimization, S-GRPO)策略,构建了我们的预操作批评模型 GUI-Critic-R1,并引入了一种新的建议奖励机制以增强模型反馈的可靠性。此外,我们开发了一种基于推理引导的数据收集管道,创建了 GUI-Critic-Train 和 GUI-Critic-Test 数据集,填补了现有 GUI 批评数据的空白。在移动和网络领域的 GUI-Critic-Test 数据集上进行的静态实验表明,我们的 GUI-Critic-R1 在批评准确性方面相比当前的 MLLMs 具有显著优势。动态评估在 GUI 自动化基准测试中的表现进一步突显了我们模型的有效性和优越性,成功率和操作效率均有所提升。