OpenCUA : Fondations ouvertes pour les agents d'utilisation informatique

Les modèles vision-langage ont fait preuve de capacités remarquables en tant qu’agents informatiques (CUA, Computer-Use Agents), capables d’automatiser une grande variété de tâches informatiques. Alors que leur potentiel commercial s’accroît, les détails critiques des systèmes CUA les plus performants restent encore verrouillés. Étant donné que ces agents joueront un rôle croissant dans la médiation des interactions numériques et dans l’exécution d’actions décisives en notre nom, la communauté scientifique a besoin d’accéder à des cadres CUA open source afin d’étudier leurs capacités, leurs limites et leurs risques. Pour combler ce fossé, nous proposons OpenCUA, un cadre open source complet destiné à l’échelle des données et des modèles fondamentaux pour les CUA. Notre cadre se compose de trois composants principaux : (1) une infrastructure d’annotation permettant de capturer de manière fluide des démonstrations humaines d’utilisation de l’ordinateur ; (2) AgentNet, le premier ensemble de données à grande échelle dédié aux tâches d’utilisation informatique, couvrant 3 systèmes d’exploitation et plus de 200 applications et sites web ; (3) une chaîne de traitement évolutif qui transforme les démonstrations en paires d’actions-états, intégrant un raisonnement réfléchi en chaîne de pensée longue, permettant de maintenir des gains de performance robustes à mesure que les données s’accumulent. Nos modèles d’agents end-to-end montrent des performances solides sur divers benchmarks CUA. En particulier, OpenCUA-32B atteint un taux moyen de réussite de 34,8 % sur OSWorld-Verified, établissant ainsi un nouveau record d’état de l’art (SOTA) parmi les modèles open source, dépassant même le modèle CUA d’OpenAI (GPT-4o). Une analyse approfondie confirme que notre approche se généralise bien à travers différents domaines et bénéficie de manière significative d’un calcul accru au moment de l’évaluation. Nous mettons à disposition notre outil d’annotation, nos jeux de données, notre code source et nos modèles, afin de poser les fondations ouvertes pour une recherche ultérieure en matière de CUA.