il y a 2 mois

Naviguer dans le monde numérique comme les humains : Ancrage visuel universel pour les agents GUI

Gou, Boyu ; Wang, Ruohan ; Zheng, Boyuan ; Xie, Yanan ; Chang, Cheng ; Shu, Yiheng ; Sun, Huan ; Su, Yu

Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs) sont en train de transformer les capacités des agents d'interface graphique (GUI), facilitant leur passage des simulations contrôlées aux applications complexes et réelles sur diverses plateformes. Cependant, l'efficacité de ces agents dépend largement de la robustesse de leur capacité d'ancrage. Les agents GUI actuels utilisent principalement des représentations textuelles telles que le HTML ou les arbres d'accessibilité, qui, malgré leur utilité, introduisent souvent du bruit, de l'incomplétude et une charge de calcul accrue. Dans cet article, nous prônons une incarnation humanoïde pour les agents GUI qui perçoivent l'environnement entièrement visuellement et effectuent directement des opérations au niveau des pixels sur l'interface graphique. La clé réside dans les modèles d'ancrage visuel capables de cartographier avec précision les expressions diverses des éléments GUI sur leurs coordonnées dans l'interface graphique, quel que soit le type de plateforme. Nous montrons qu'une approche simple, incluant des données synthétiques basées sur le web et une légère adaptation de l'architecture LLaVA, est surprenamment efficace pour entraîner ces modèles d'ancrage visuel. Nous avons collecté le plus grand ensemble de données pour l'ancrage visuel des interfaces graphiques jusqu'à présent, comprenant 10 millions d'éléments GUI et leurs expressions référentielles sur 1,3 million de captures d'écran, et nous l'avons utilisé pour entraîner UGround, un modèle d'ancrage visuel universel puissant pour les agents GUI. Les résultats empiriques sur six benchmarks couvrant trois catégories (ancrage, agent hors ligne et agent en ligne) montrent que 1) UGround dépasse considérablement les modèles d'ancrage visuel existants pour les agents GUI, avec une amélioration allant jusqu'à 20 % en valeur absolue, et 2) les agents équipés d'UGround surpassent les agents d'avant-garde malgré le fait que ces derniers utilisent des entrées textuelles supplémentaires tandis que notre modèle ne repose que sur la perception visuelle. Ces résultats apportent un soutien solide à la faisabilité et aux promesses des agents GUI capables de naviguer dans le monde numérique comme le font les humains.