HyperAIHyperAI
il y a 2 mois

SeeClick : Exploiter l'ancrage GUI pour des agents visuels avancés de GUI

Kanzhi Cheng; Qiushi Sun; Yougang Chu; Fangzhi Xu; Yantao Li; Jianbing Zhang; Zhiyong Wu
SeeClick : Exploiter l'ancrage GUI pour des agents visuels avancés de GUI
Résumé

Les agents d'interface utilisateur graphique (GUI) sont conçus pour automatiser des tâches complexes sur des appareils numériques, tels que des smartphones et des ordinateurs de bureau. La plupart des agents GUI existants interagissent avec l'environnement à travers des données structurées extraites, qui peuvent être notablement longues (par exemple, HTML) et occasionnellement inaccessibles (par exemple, sur les ordinateurs de bureau). Pour atténuer ce problème, nous proposons un nouvel agent GUI visuel -- SeeClick, qui ne repose que sur des captures d'écran pour l'automatisation des tâches. Dans notre étude préliminaire, nous avons identifié un défi majeur dans le développement d'agents GUI visuels : le positionnement GUI -- la capacité de localiser précisément les éléments d'écran en fonction des instructions. Pour relever ce défi, nous proposons d'améliorer SeeClick grâce à une pré-formation en positionnement GUI et de concevoir une méthode pour automatiser la création de données de positionnement GUI. En complément de ces efforts, nous avons également créé ScreenSpot, le premier banc d'essai réaliste pour le positionnement GUI couvrant les environnements mobiles, de bureau et web. Après la pré-formation, SeeClick montre une amélioration significative sur ScreenSpot par rapport à diverses lignes de base. De plus, des évaluations approfondies sur trois benchmarks largement utilisés soutiennent constamment notre constat selon lequel les progrès en matière de positionnement GUI sont directement corrélés à une meilleure performance dans les tâches effectuées par les agents GUI en aval. Le modèle, les données et le code sont disponibles à l'adresse suivante : https://github.com/njucckevin/SeeClick.