Command Palette
Search for a command to run...
ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten

Abstract
Vision-Language-Modelle (VLMs) haben Computer-Use-Agenten (CUAs) ermöglicht, die grafische Benutzeroberflächen (GUIs) autonom bedienen, und zeigen großes Potenzial. Dennoch ist der Fortschritt bisher durch den Mangel an großskaligen, quelloffenen Daten sowie Grundmodelle für den Computergebrauch eingeschränkt. In dieser Arbeit stellen wir ScaleCUA vor – einen Schritt hin zu einer Skalierung quelloffener CUAs. ScaleCUA bietet einen großskaligen Datensatz, der sechs Betriebssysteme und drei Aufgabendomänen abdeckt, und wurde mittels einer geschlossenen Schleife entwickelt, die automatisierte Agenten mit menschlichen Experten verbindet. Auf dieser erweiterten Datenbasis trainiert, kann ScaleCUA nahtlos über verschiedene Plattformen hinweg operieren. Insbesondere erzielt es deutliche Verbesserungen gegenüber Baseline-Modellen (+26,6 auf WebArena-Lite-v2, +10,7 auf ScreenSpot-Pro) und erreicht neue Sollwert-Resultate (94,4 % auf MMBench-GUI L1-Hard, 60,6 % auf OSWorld-G, 47,4 % auf WebArena-Lite-v2). Diese Ergebnisse unterstreichen die Kraft datengetriebener Skalierung für allgemein einsetzbare Computer-Use-Agenten. Wir werden Daten, Modelle und Code zur Förderung zukünftiger Forschung veröffentlichen: https://github.com/OpenGVLab/ScaleCUA.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.