GUICourse : Des modèles de langage et de vision généraux aux agents GUI polyvalents

L'utilisation d'une interface graphique utilisateur (GUI) pour l'interaction homme-machine est essentielle pour accéder à une large gamme d'outils numériques. Les récentes avancées dans les modèles de vision-langage (VLMs) soulignent le potentiel prometteur de développer des agents polyvalents pour aider les humains à accomplir des tâches de navigation GUI. Cependant, les VLMs actuels sont confrontés à des défis en termes de capacités fondamentales (OCR et ancrage) et de connaissances GUI (les fonctions et méthodes de contrôle des éléments GUI), ce qui les empêche de devenir des agents GUI pratiques. Pour relever ces défis, nous contribuons avec GUICourse, un ensemble de jeux de données destinés à former des agents GUI basés sur la vision à partir de VLMs généraux. Tout d'abord, nous présentons le jeu de données GUIEnv pour renforcer les capacités OCR et d'ancrage des VLMs. Ensuite, nous introduisons les jeux de données GUIAct et GUIChat pour enrichir leurs connaissances sur les composants GUI et leurs interactions. Les expériences montrent que nos agents GUI ont une meilleure performance sur les tâches courantes GUI par rapport aux VLMs baselines. Même l'agent GUI de petite taille (avec 3,1 milliards de paramètres) fonctionne bien sur des tâches GUI simples et complexes en plusieurs étapes. Enfin, nous analysons les différentes variétés lors de l'étape d'entraînement de cet agent par une étude d'élagage. Nos codes sources et jeux de données sont disponibles à l'adresse suivante : https://github.com/yiye3/GUICourse.