HyperAI
il y a 9 jours

GUI-G^2 : Modélisation de récompense gaussienne pour l'ancrage de l'interface graphique utilisateur

Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
GUI-G^2 : Modélisation de récompense gaussienne pour l'ancrage de l'interface graphique utilisateur
Résumé

Les cartes d'ancrage de l'interface graphique (GUI) permettent de traduire les instructions en langage naturel en emplacements précis sur l'interface, afin d'assurer une interaction autonome. Les approches actuelles d'apprentissage par renforcement utilisent des récompenses binaires qui considèrent les éléments comme des cibles de type « tout ou rien », générant ainsi des signaux rares qui ignorent la nature continue des interactions spatiales. Inspirés par le comportement humain de clic, qui forme naturellement des distributions gaussiennes centrées sur les éléments cibles, nous introduisons les Récompenses d'ancrage gaussien pour les GUI (GUI-G^2), un cadre de récompense fondé sur des principes rigoureux qui modélise les éléments de l'interface comme des distributions gaussiennes continues sur le plan de l'interface. Le GUI-G^2 intègre deux mécanismes synergiques : les récompenses ponctuelles gaussiennes modélisent une localisation précise grâce à des distributions décroissantes exponentiellement centrées sur les centres des éléments, tandis que les récompenses de couverture évaluent l'alignement spatial en mesurant la superposition entre les distributions gaussiennes prédites et les régions cibles. Pour gérer les différentes échelles des éléments, nous développons un mécanisme de variance adaptative qui calibre les distributions de récompense en fonction des dimensions des éléments. Ce cadre transforme l'ancrage de la GUI de la classification binaire sparsse en une optimisation continue dense, où les distributions gaussiennes produisent des signaux de gradient riches qui guident les modèles vers des positions d'interaction optimales. Des expériences approfondies sur les benchmarks ScreenSpot, ScreenSpot-v2 et ScreenSpot-Pro montrent que le GUI-G^2 dépasse significativement la méthode UI-TARS-72B de pointe, avec une amélioration la plus marquée de 24,7 % sur ScreenSpot-Pro. Notre analyse révèle que le modélisation continue offre une robustesse supérieure aux variations d'interface et une meilleure généralisation aux dispositions inconnues, établissant ainsi un nouveau paradigme pour le raisonnement spatial dans les tâches d'interaction avec les GUI.