HyperAIHyperAI
vor 10 Stunden

OpenCUA: Offene Grundlagen für Computer-Use-Agenten

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, et al
OpenCUA: Offene Grundlagen für Computer-Use-Agenten
Abstract

Vision-Language-Modelle haben beeindruckende Fähigkeiten als Computer-Verwendung-Agenten (Computer-Use Agents, CUAs) demonstriert, die diverse computergestützte Aufgaben automatisieren können. Mit wachsendem kommerziellem Potenzial bleiben jedoch kritische Details der leistungsfähigsten CUA-Systeme weiterhin geschlossen. Da diese Agenten zunehmend digitale Interaktionen vermitteln und für uns entscheidende Entscheidungen treffen werden, benötigt die Forschungsgemeinschaft Zugang zu offenen CUA-Frameworks, um deren Fähigkeiten, Grenzen und Risiken zu untersuchen. Um diese Lücke zu schließen, stellen wir OpenCUA vor – ein umfassendes Open-Source-Framework zur Skalierung von CUA-Daten und Grundmodellen. Unser Framework umfasst: (1) eine Annotationssystematik, die menschliche Computer-Verwendungsdemonstrationen nahtlos erfasst; (2) AgentNet, den ersten großskaligen Datensatz für Computer-Verwendungsaufgaben, der 3 Betriebssysteme und über 200 Anwendungen sowie Webseiten abdeckt; (3) eine skalierbare Pipeline, die Demonstrationen in Zustands-Aktions-Paare transformiert und dabei reflektierendes, langes Chain-of-Thought-Reasoning nutzt, das bei steigenden Datenmengen eine robuste Leistungssteigerung ermöglicht. Unsere end-to-end-Agentenmodelle zeigen eine starke Leistung in verschiedenen CUA-Benchmarks. Insbesondere erreicht OpenCUA-32B eine durchschnittliche Erfolgsrate von 34,8 % auf OSWorld-Verified und etabliert damit eine neue State-of-the-Art (SOTA) unter Open-Source-Modellen, die OpenAI CUA (GPT-4o) übertrifft. Weitere Analysen bestätigen, dass unser Ansatz gut generalisiert und erheblich von erhöhter Rechenleistung im Testzeitraum profitiert. Wir stellen unsere Annotationstool, Datensätze, Code und Modelle öffentlich zur Verfügung, um eine offene Grundlage für zukünftige CUA-Forschung zu schaffen.