Command Palette
Search for a command to run...
ScaleCUA : Échelle des agents d'utilisation des ordinateurs open-source grâce à des données multiplateformes

Résumé
Les modèles vision-langage (VLM) ont permis le développement d'agents informatiques autonomes (CUA) capables d'interagir de manière autonome avec les interfaces graphiques utilisateur (GUI), démontrant un potentiel considérable. Toutefois, leur progrès reste freiné par le manque de données à grande échelle et open-source sur l'utilisation de l'informatique, ainsi que par l'absence de modèles fondamentaux. Dans ce travail, nous présentons ScaleCUA, une avancée vers la mise à l’échelle des agents informatiques open-source. Ce projet propose un jeu de données à grande échelle couvrant 6 systèmes d’exploitation et 3 domaines de tâches, construit grâce à une chaîne de traitement en boucle fermée combinant des agents automatisés et des experts humains. En étant entraîné sur ces données élargies, ScaleCUA parvient à fonctionner de manière fluide et cohérente à travers différentes plateformes. Plus précisément, il obtient des gains significatifs par rapport aux méthodes de référence (+26,6 sur WebArena-Lite-v2, +10,7 sur ScreenSpot-Pro) et établit de nouveaux états de l’art (94,4 % sur MMBench-GUI L1-Hard, 60,6 % sur OSWorld-G, 47,4 % sur WebArena-Lite-v2). Ces résultats mettent en évidence le pouvoir de la mise à l’échelle fondée sur les données pour les agents informatiques polyvalents. Nous rendrons publics les données, les modèles et le code source afin de stimuler les recherches futures : https://github.com/OpenGVLab/ScaleCUA.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.