HyperAIHyperAI

Command Palette

Search for a command to run...

OpenCUA : Fondations ouvertes pour les agents d'utilisation informatique

Xinyuan Wang Bowen Wang Dunjie Lu Junlin Yang Tianbao Xie Junli Wang et al

Résumé

Les modèles vision-langage ont fait preuve de capacités remarquables en tant qu’agents informatiques (CUA, Computer-Use Agents), capables d’automatiser une grande variété de tâches informatiques. Alors que leur potentiel commercial s’accroît, les détails critiques des systèmes CUA les plus performants restent encore verrouillés. Étant donné que ces agents joueront un rôle croissant dans la médiation des interactions numériques et dans l’exécution d’actions décisives en notre nom, la communauté scientifique a besoin d’accéder à des cadres CUA open source afin d’étudier leurs capacités, leurs limites et leurs risques. Pour combler ce fossé, nous proposons OpenCUA, un cadre open source complet destiné à l’échelle des données et des modèles fondamentaux pour les CUA. Notre cadre se compose de trois composants principaux : (1) une infrastructure d’annotation permettant de capturer de manière fluide des démonstrations humaines d’utilisation de l’ordinateur ; (2) AgentNet, le premier ensemble de données à grande échelle dédié aux tâches d’utilisation informatique, couvrant 3 systèmes d’exploitation et plus de 200 applications et sites web ; (3) une chaîne de traitement évolutif qui transforme les démonstrations en paires d’actions-états, intégrant un raisonnement réfléchi en chaîne de pensée longue, permettant de maintenir des gains de performance robustes à mesure que les données s’accumulent. Nos modèles d’agents end-to-end montrent des performances solides sur divers benchmarks CUA. En particulier, OpenCUA-32B atteint un taux moyen de réussite de 34,8 % sur OSWorld-Verified, établissant ainsi un nouveau record d’état de l’art (SOTA) parmi les modèles open source, dépassant même le modèle CUA d’OpenAI (GPT-4o). Une analyse approfondie confirme que notre approche se généralise bien à travers différents domaines et bénéficie de manière significative d’un calcul accru au moment de l’évaluation. Nous mettons à disposition notre outil d’annotation, nos jeux de données, notre code source et nos modèles, afin de poser les fondations ouvertes pour une recherche ultérieure en matière de CUA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OpenCUA : Fondations ouvertes pour les agents d'utilisation informatique | Articles | HyperAI