HyperAI

Ce travail présente une approche complète pour entraîner des modèles vision-langage (VLM) à automatiser les interfaces graphiques (GUI), en transformant un modèle de petite taille sans capacité de repérage visuel en un agent agissant capable d’interagir intelligemment avec des environnements desktop, mobiles et web. L’objectif principal n’est pas d’atteindre un résultat SOTA, mais de démontrer un processus reproductible, de la préparation des données à l’entraînement, permettant d’acquérir des compétences de repérage et d’action dans les GUI. Le modèle de base utilisé est SmolVLM2-2.2B-Instruct, un petit VLM initialement dépourvu de tout repérage GUI. L’approche repose sur une formation en deux phases : 1. Phase 1 (de la perception) : instauration de capacités de repérage visuel via une fine-tuning supervisée (SFT) sur un jeu de données transformé, smolagents/aguvis-stage-1, qui associe des instructions textuelles à des actions GUI précises (ex. : click(x=0.8875, y=0.2281)). 2. Phase 2 (de la cognition) : développement de compétences agencées par SFT sur smolagents/aguvis-stage-2, qui inclut des scénarios complexes avec des instructions multi-tours, des actions antérieures et des plans de raisonnement, permettant au modèle de planifier des séquences d’actions. Une étape clé du processus est la normalisation des coordonnées (de 0 à 1) et la unification de l’espace d’actions à partir de plusieurs jeux de données hétérogènes (mobile, desktop). Une pipeline de transformation automatisée a été développée pour standardiser les fonctions (ex. : mobile.open_app() → open_app()), les noms de paramètres et les formats d’appel. Cette unification est essentielle pour éviter les incohérences dues aux tailles d’image ou aux systèmes de coordonnées, garantissant la robustesse du modèle face à des résolutions variées. Les résultats sont significatifs : - Après la Phase 1, le modèle passe de 0 % à 41,27 % sur le benchmark ScreenSpot-v2, mesurant la capacité à localiser des éléments dans des captures d’écran. - Après la Phase 2, cette performance atteint 61,71 %, montrant que le raisonnement explicite améliore nettement la précision du repérage. Un outil supplémentaire, Action Space Converter, permet aux utilisateurs de personnaliser les noms et paramètres d’action selon leurs frameworks d’automatisation (ex. : click(x=0.5, y=0.3) → touch(x_coord=200, y_coord=300)), offrant une grande flexibilité. Tous les composants sont open source : code d’entraînement (notebook), pipelines de prétraitement, jeux de données transformés, modèle entraîné (smolagents/SmolVLM2-2.2B-Instruct-Agentic-GUI) et une démonstration interactive sur Hugging Face Spaces. Cette transparence vise à faciliter la recherche collaborative et l’adaptation à de nouveaux domaines. Enfin, l’approche s’applique même à des modèles plus petits (ex. : nanoVLM-460M), atteignant 58 % sur ScreenSpot-v2, ce qui en fait le meilleur résultat pour sa taille. Ces résultats soulignent que la qualité des données — structurées, raisonnées, diversifiées — est plus déterminante que la taille du modèle. Évaluation : Des experts du domaine saluent cette démarche pour sa rigueur méthodologique et son ouverture. La combinaison de données de haute qualité et d’une architecture modulaire ouvre la voie à des agents GUI plus autonomes. L’approche est particulièrement prometteuse pour des applications industrielles (automatisation de tests, assistance utilisateur) et pour la recherche en IA agente. L’évolution vers des méthodes comme le reinforcement learning ou la préférence directe (DPO) pourrait permettre une adaptation en temps réel, rendant les agents encore plus intelligents et autonomes.

Smol2Operator : un modèle léger devient un agent autonome pour contrôler les interfaces graphiques

Related Links