Command Palette
Search for a command to run...
Fonder des agents d'utilisation des ordinateurs sur des démonstrations humaines

Résumé
La construction d’agents d’utilisation fiables de l’ordinateur repose sur le grounding : c’est-à-dire la capacité à relier avec précision des instructions en langage naturel aux éléments écrans correspondants. Bien qu’abondantes, les grandes bases de données existent pour les interactions web et mobiles, les ressources de haute qualité pour les environnements de bureau restent limitées. Pour combler ce manque, nous introduisons GroundCUA, un grand ensemble de données pour le grounding sur bureau, construit à partir de démonstrations d’experts humains. Ce jeu de données couvre 87 applications réparties en 12 catégories, et inclut 56 000 captures d’écran, chaque élément visible étant soigneusement annoté, pour un total de plus de 3,56 millions d’annotations vérifiées par des humains. À partir de ces démonstrations, nous générons des instructions variées, reflétant une large gamme de tâches du monde réel, offrant ainsi des données de haute qualité pour l’entraînement des modèles. Grâce à GroundCUA, nous développons la famille de modèles GroundNext, capables de mapper des instructions à leurs éléments cibles dans l’interface utilisateur. À la fois à l’échelle de 3B et de 7B, GroundNext atteint des résultats de pointe sur cinq benchmarks grâce à un fine-tuning supervisé, tout en nécessitant moins d’un dixième des données d’entraînement par rapport aux travaux antérieurs. Une phase de reinforcement learning post-entraînement améliore encore les performances, et évaluée dans un cadre agencé sur le benchmark OSWorld, en utilisant o3 comme planificateur, GroundNext obtient des résultats comparables ou supérieurs à ceux des modèles entraînés avec une quantité de données nettement plus importante. Ces résultats mettent en évidence le rôle essentiel des jeux de données de haute qualité, construits à partir de démonstrations d’experts, dans l’avancement des agents généraux d’utilisation de l’ordinateur.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.