HyperAIHyperAI

Command Palette

Search for a command to run...

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Résumé

L’émergence des modèles linguistiques à grande échelle multimodaux (MLLM) a accéléré le développement d’agents autonomes capables d’interagir avec des interfaces utilisateur graphiques (GUI) à partir d’entrées visuelles uniquement. Un défi fondamental réside dans le repérage fiable d'instructions en langage naturel. Cela suppose une alignement spatial précis, qui localise avec exactitude les coordonnées de chaque élément, et, plus critique encore, un alignement sémantique correct, qui associe les instructions aux éléments d’interface fonctionnellement appropriés. Bien que l’apprentissage par renforcement avec récompenses vérifiables (RLVR) se soit avéré efficace pour améliorer l’alignement spatial de ces MLLM, nous constatons que l’exploration inefficace constitue un goulot d’étranglement pour l’alignement sémantique, empêchant ainsi les modèles d’apprendre des associations sémantiques complexes. Pour résoudre ce problème d’exploration, nous proposons un nouveau cadre d’optimisation de politique appelé Adaptive Exploration Policy Optimization (AEPO). AEPO utilise une stratégie de génération multiple de réponses afin d’encourager une exploration plus large, qui est ensuite guidée par une fonction de récompense d’exploration adaptative (AER), théoriquement fondée sur les principes premiers de l’efficacité η = U/C. Les modèles entraînés avec AEPO, InfiGUI-G1-3B et InfiGUI-G1-7B, atteignent de nouveaux états de l’art sur plusieurs benchmarks exigeants de repérage d’interfaces, réalisant des améliorations relatives significatives allant jusqu’à 9,0 % par rapport à une base naïve de RLVR sur des benchmarks conçus pour évaluer la généralisation et la compréhension sémantique. Les ressources sont disponibles à l’adresse suivante : https://github.com/InfiXAI/InfiGUI-G1.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp