HyperAIHyperAI

Command Palette

Search for a command to run...

1 天前
多模态

信任正确的教师:面向GUI定位的质量感知自蒸馏

Jingyuan Huang Zuming Huang Yucheng Shi Tianze Yang Xiaoming Zhai Wei Chu Ninghao Liu

摘要

图形用户界面(GUI)定位要求视觉语言模型(VLMs)在高分辨率截图中识别小型目标元素并预测精确的屏幕坐标。在线策略自蒸馏(OPSD)是此类对坐标敏感任务的有前景的后训练方法,因为它除了提供硬坐标标签外,还能提供密集的token级教师信号。然而,朴素的OPSD并不适合GUI定位:OPSD在学生生成的前缀上评估教师模型,当该前缀已经偏离目标坐标时,坐标-token教师信号的质量可能会下降,从而导致不可靠的教师信号。为缓解这一问题,我们提出了面向基于VLM的GUI定位的质量感知自蒸馏方法,该方法通过软正确性感知门控和教师概率缩放来提升坐标-token教师信号的质量。软正确性感知门控检查在给定学生生成前缀的情况下,教师当前的坐标-token预测是否仍能被补全为真实框。若不能,则相应降低教师信号的权重。随后,教师概率缩放利用教师的置信度作为轻量级因子,进一步校准门控监督的强度。一个关键的实证发现是,单独使用任一组件均无法提升整体性能,而将两者结合则能一致地提升性能。这表明这两种机制发挥着互补作用:正确性感知门控抑制了不可靠的坐标-token监督,而教师概率缩放则校准了剩余信号的强度。在六个GUI定位基准上的实验表明,我们的方法持续提升了基础模型的性能,并优于强基线方法。

一句话总结

作者提出了一种面向基于视觉语言模型的 GUI 定位的质量感知自蒸馏方法。该方法以软正确性感知门控和教师概率缩放取代了原始的 on-policy 自蒸馏,通过动态降低不可靠的 coordinate-token 教师信号的权重,从而提升高分辨率截图中元素定位的精度。

核心贡献

  • 本文提出了一种面向图形用户界面(GUI)定位的视觉语言模型质量感知自蒸馏框架,旨在当 on-policy 前缀偏离目标区域时,稳定对坐标敏感的训练过程。
  • 软正确性感知门控机制通过检查在 student 生成的前缀下,教师坐标预测是否仍能补全至真实边界框,来评估空间可验证性,并自动降低不可靠信号的权重。
  • 教师概率缩放作为一种轻量级校准因子,动态调整门控监督强度,建立了一种直接依赖空间验证的训练期可靠性标准,而非依赖熵或困惑度等间接代理指标。

数据集

  • 数据集构成与来源: 作者构建了一个面向 GUI 指令任务的双提示数据集,将原始用户查询与对应的界面截图进行配对。
  • 子集详情: Student 提示词包含原始 GUI 图像以及原始指令或查询。Teacher 提示词采用相同结构,但附加了特权提示以引导模型注意力。
  • 数据使用与处理: 本文利用这些模板构建模型输入。作者使用 student 提示词执行基线任务,并使用 Teacher 提示词在训练或推理阶段提供引导式辅助。
  • 裁剪与元数据策略: Teacher 提示词明确指出正确答案位于绿色矩形框内。这表明采用了一种基于区域的处理方法,作者在将数据输入模型前,利用空间元数据隔离或裁剪相关的界面区域。

实验

基于 Qwen3.5-9B 骨干网络,在六个 GUI 定位基准上进行的评估表明,该实验流程通过系统测试核心校准机制与传统训练范式的对比,验证了质量感知自蒸馏框架的有效性。主要对比实验证明,所提方法持续优于监督微调、强化学习及先前的自蒸馏方法。组件分析进一步确认,软正确性感知门控与教师概率缩放充当了互补滤波器,用于抑制不一致的监督信号并保留有价值的纠正反馈。进一步的敏感性分析揭示,仔细平衡粗略可靠性门控与细粒度概率权重及 coordinate-token 强度,可优化跨基准的泛化能力。最终,结果确立了空间可验证性与动态信号校准作为缓解暴露偏差并增强自回归坐标预测的稳健策略。

结合软正确性感知门控与教师概率缩放的所提方法,在所有评估的 GUI 定位基准上均取得了最佳的宏平均准确率。尽管单独应用任一组件未能持续带来优于基线的提升,但两者的组合有效校准了教师信号,从而提升了整体性能。组合方法在所有基准上取得了最高的平均准确率。单一组件(仅门控或仅缩放)未能使性能超越基线。所提方法在列出的每个基准上均优于基线。

作者在六个 GUI 定位基准上,将所提质量感知自蒸馏方法与 GUI-SD 和 SFT 等多个基线进行了对比评估。结果表明,该方法在所有独立数据集及整体平均宏准确率上均持续取得最优性能。这证明通过软门控和概率缩放校准教师信号可靠性,能有效改进现有训练策略。所提方法在所有六个评估基准上均取得最佳性能,超越了最强的基线 GUI-SD。该方法优于标准的监督微调和强化学习基线,凸显了密集 token 级监督的优势。将软正确性感知门控与教师概率缩放相结合,相比单独使用任一组件均能取得更优结果。

作者探讨了门控强度对 GUI 定位教师信号校准的影响。软正确性感知门控方法取得了最高的宏平均准确率,优于仅缩放的基线及硬门控变体。这表明软门控通过降低不可靠信号权重而非完全丢弃,提供了更有效的折中方案。与硬门控及仅缩放基线相比,软正确性感知门控实现了最佳整体性能。该方法在评估的基准上持续优于教师概率缩放方法。软门控在过滤不可靠信号的同时保留了纠正信息,证明了其比硬门控更为有效。

作者探讨了缩放系数对模型在多个基准上性能的影响。结果表明,增加系数初期会提升宏平均准确率,所提设置取得了最高的整体得分。然而,进一步增加系数会导致平均性能下降,说明过强的系数会损害通用定位能力。与其他测试的系数值相比,所提配置实现了最高的宏平均准确率。虽然较高的系数能提升特定数据集的性能,但会降低所有基准的整体平均得分。所选系数值提供了最佳权衡,在有效监督与稳健泛化性能之间取得了平衡。

作者在其已采用软正确性感知门控和固定缩放系数的自蒸馏框架内,探讨了教师概率缩放的效果。实验结果表明,相较于固定缩放配置,引入概率缩放在所有六个 GUI 定位基准上均带来了一致的性能提升。带有概率缩放的所提方法在每一个独立基准上均优于固定缩放基线。该方法取得了最佳的宏平均准确率,表明其整体性能强劲。教师概率缩放实现了对教师信号更精细的校准,从而提升了监督质量。

在六个 GUI 定位基准上,与标准监督微调和强化学习基线相比,当结合软正确性感知门控与教师概率缩放时,所提质量感知自蒸馏方法持续取得更优性能。单独的消融实验表明,任一组件单独使用均无法超越基线,而软门控通过降低不可靠信号权重而非直接丢弃,优于硬门控替代方案。进一步调参显示,所选缩放系数在监督强度与泛化能力之间实现了最优平衡,且动态概率缩放持续优于固定配置。综合来看,这些结果证实,仔细校准教师信号可靠性能显著增强用于稳健 GUI 定位的密集 token 级监督效果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供