HyperAIHyperAI

Command Palette

Search for a command to run...

Naviguer dans le monde numérique comme les humains : Ancrage visuel universel pour les agents GUI

Boyu Gou¹ Ruohan Wang¹ Boyuan Zheng¹ Yanan Xie² Cheng Chang² Yiheng Shu¹ Huan Sun¹ Yu Su¹

Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs) sont en train de transformer les capacités des agents d'interface graphique (GUI), facilitant leur passage des simulations contrôlées aux applications complexes et réelles sur diverses plateformes. Cependant, l'efficacité de ces agents dépend largement de la robustesse de leur capacité d'ancrage. Les agents GUI actuels utilisent principalement des représentations textuelles telles que le HTML ou les arbres d'accessibilité, qui, malgré leur utilité, introduisent souvent du bruit, de l'incomplétude et une charge de calcul accrue. Dans cet article, nous prônons une incarnation humanoïde pour les agents GUI qui perçoivent l'environnement entièrement visuellement et effectuent directement des opérations au niveau des pixels sur l'interface graphique. La clé réside dans les modèles d'ancrage visuel capables de cartographier avec précision les expressions diverses des éléments GUI sur leurs coordonnées dans l'interface graphique, quel que soit le type de plateforme. Nous montrons qu'une approche simple, incluant des données synthétiques basées sur le web et une légère adaptation de l'architecture LLaVA, est surprenamment efficace pour entraîner ces modèles d'ancrage visuel. Nous avons collecté le plus grand ensemble de données pour l'ancrage visuel des interfaces graphiques jusqu'à présent, comprenant 10 millions d'éléments GUI et leurs expressions référentielles sur 1,3 million de captures d'écran, et nous l'avons utilisé pour entraîner UGround, un modèle d'ancrage visuel universel puissant pour les agents GUI. Les résultats empiriques sur six benchmarks couvrant trois catégories (ancrage, agent hors ligne et agent en ligne) montrent que 1) UGround dépasse considérablement les modèles d'ancrage visuel existants pour les agents GUI, avec une amélioration allant jusqu'à 20 % en valeur absolue, et 2) les agents équipés d'UGround surpassent les agents d'avant-garde malgré le fait que ces derniers utilisent des entrées textuelles supplémentaires tandis que notre modèle ne repose que sur la perception visuelle. Ces résultats apportent un soutien solide à la faisabilité et aux promesses des agents GUI capables de naviguer dans le monde numérique comme le font les humains.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp