HyperAI
il y a 2 jours

GTA1 : Agent d'Échelle pour les Tests en Temps Réel de l'Interface Utilisateur

Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
GTA1 : Agent d'Échelle pour les Tests en Temps Réel de l'Interface Utilisateur
Résumé

Les agents d'interface utilisateur graphique (GUI) opèrent de manière autonome sur différents plateformes (par exemple, Linux) pour accomplir des tâches en interagissant avec des éléments visuels. Plus précisément, une instruction utilisateur est décomposée en une séquence de propositions d'actions, chacune correspondant à une interaction avec l'interface utilisateur graphique. Après chaque action, l'agent observe l'environnement GUI mis à jour afin de planifier la prochaine étape.Cependant, deux défis majeurs se posent : i) résoudre les ambiguïtés dans la planification des tâches (c'est-à-dire la séquence de propositions d'actions), où le choix d'un plan approprié n'est pas trivial, car de nombreuses options valides peuvent exister ; ii) ancrer précisément les actions dans des interfaces complexes et haute résolution, c'est-à-dire interagir exactement avec les cibles visuelles.Ce document examine ces deux défis mentionnés précédemment à l'aide de notre agent d'échelle au moment du test pour l'interface utilisateur graphique, nommé GTA1. Premièrement, pour sélectionner la proposition d'action la plus appropriée, nous introduisons une méthode d'échelle au moment du test. À chaque étape, nous échantillonnons plusieurs propositions d'action candidates et utilisons un modèle juge pour évaluer et sélectionner celle qui convient le mieux. Cette méthode échange du calcul contre une meilleure qualité de décision grâce à l'échantillonnage simultané, réduisant ainsi le nombre d'étapes nécessaires pour l'exécution de la tâche et améliorant les performances globales. Deuxièmement, nous proposons un modèle qui atteint une précision accrue lorsqu'il s'agit d'ancre la proposition d'action sélectionnée à ses éléments visuels correspondants. Notre intuition principale est que l'apprentissage par renforcement (RL) facilite l'ancre visuelle grâce aux alignements objectifs inhérents, en récompensant les clics réussis sur les éléments de l'interface.Expérimentalement, notre méthode établit des performances de pointe sur diverses基准(benchmarks). Par exemple, GTA1-7B atteint des précisions de 50,1 %, 92,4 % et 67,7 % sur Screenspot-Pro, Screenspot-V2 et OSWorld-G respectivement. Lorsqu'il est associé à un planificateur utilisant notre stratégie d'échelle au moment du test, il présente des performances agencées de pointe (par exemple, un taux de succès de 45,2 % sur OSWorld). Nous mettons notre code source et nos modèles à disposition sous licence open-source ici.Note: "基准" should be replaced with "benchmarks" in the final version if it's not a specific term that needs to be kept in Chinese. If it is a specific term or you prefer to keep it in Chinese for some reason, you can leave it as "基准" and add a note explaining why it was kept in Chinese.