OmniParser pour un agent GUI basé uniquement sur la vision

Le récent succès des grands modèles de vision-langue montre un grand potentiel pour piloter les systèmes d'agents opérant sur les interfaces utilisateur. Cependant, nous soutenons que la puissance des modèles multimodaux comme le GPT-4V en tant qu'agent général sur plusieurs systèmes d'exploitation et dans différentes applications est largement sous-estimée en raison du manque d'une technique de parsing d'écran robuste capable de : 1) identifier de manière fiable les icônes interactives au sein de l'interface utilisateur, et 2) comprendre la sémantique des différents éléments dans une capture d'écran et associer précisément l'action souhaitée à la région correspondante sur l'écran. Pour combler ces lacunes, nous présentons OmniParser, une méthode complète pour parser les captures d'écran des interfaces utilisateur en éléments structurés, ce qui améliore considérablement la capacité du GPT-4V à générer des actions qui peuvent être correctement ancrées dans les régions correspondantes de l'interface. Nous avons tout d'abord constitué un jeu de données pour la détection des icônes interactives à partir de pages web populaires et un jeu de données pour la description des icônes. Ces jeux de données ont été utilisés pour affiner des modèles spécialisés : un modèle de détection pour analyser les zones interactives sur l'écran et un modèle de légendage pour extraire la sémantique fonctionnelle des éléments détectés. OmniParser améliore considérablement les performances du GPT-4V sur le benchmark ScreenSpot. Sur les benchmarks Mind2Web et AITW, OmniParser avec une entrée uniquement basée sur les captures d'écran dépasse les modèles basiques du GPT-4V nécessitant des informations supplémentaires en dehors des captures d'écran.