il y a 13 jours

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

Voir les détails de l'article View Code

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Résumé

L’émergence des modèles linguistiques à grande échelle multimodaux (MLLM) a accéléré le développement d’agents autonomes capables d’interagir avec des interfaces utilisateur graphiques (GUI) à partir d’entrées visuelles uniquement. Un défi fondamental réside dans le repérage fiable d'instructions en langage naturel. Cela suppose une alignement spatial précis, qui localise avec exactitude les coordonnées de chaque élément, et, plus critique encore, un alignement sémantique correct, qui associe les instructions aux éléments d’interface fonctionnellement appropriés. Bien que l’apprentissage par renforcement avec récompenses vérifiables (RLVR) se soit avéré efficace pour améliorer l’alignement spatial de ces MLLM, nous constatons que l’exploration inefficace constitue un goulot d’étranglement pour l’alignement sémantique, empêchant ainsi les modèles d’apprendre des associations sémantiques complexes. Pour résoudre ce problème d’exploration, nous proposons un nouveau cadre d’optimisation de politique appelé Adaptive Exploration Policy Optimization (AEPO). AEPO utilise une stratégie de génération multiple de réponses afin d’encourager une exploration plus large, qui est ensuite guidée par une fonction de récompense d’exploration adaptative (AER), théoriquement fondée sur les principes premiers de l’efficacité η = U/C. Les modèles entraînés avec AEPO, InfiGUI-G1-3B et InfiGUI-G1-7B, atteignent de nouveaux états de l’art sur plusieurs benchmarks exigeants de repérage d’interfaces, réalisant des améliorations relatives significatives allant jusqu’à 9,0 % par rapport à une base naïve de RLVR sur des benchmarks conçus pour évaluer la généralisation et la compréhension sémantique. Les ressources sont disponibles à l’adresse suivante : https://github.com/InfiXAI/InfiGUI-G1.