Command Palette
Search for a command to run...
ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten
ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten
Zusammenfassung
Vision-Language-Modelle (VLMs) haben Computer-Use-Agenten (CUAs) ermöglicht, die grafische Benutzeroberflächen (GUIs) autonom bedienen, und zeigen großes Potenzial. Dennoch ist der Fortschritt bisher durch den Mangel an großskaligen, quelloffenen Daten sowie Grundmodelle für den Computergebrauch eingeschränkt. In dieser Arbeit stellen wir ScaleCUA vor – einen Schritt hin zu einer Skalierung quelloffener CUAs. ScaleCUA bietet einen großskaligen Datensatz, der sechs Betriebssysteme und drei Aufgabendomänen abdeckt, und wurde mittels einer geschlossenen Schleife entwickelt, die automatisierte Agenten mit menschlichen Experten verbindet. Auf dieser erweiterten Datenbasis trainiert, kann ScaleCUA nahtlos über verschiedene Plattformen hinweg operieren. Insbesondere erzielt es deutliche Verbesserungen gegenüber Baseline-Modellen (+26,6 auf WebArena-Lite-v2, +10,7 auf ScreenSpot-Pro) und erreicht neue Sollwert-Resultate (94,4 % auf MMBench-GUI L1-Hard, 60,6 % auf OSWorld-G, 47,4 % auf WebArena-Lite-v2). Diese Ergebnisse unterstreichen die Kraft datengetriebener Skalierung für allgemein einsetzbare Computer-Use-Agenten. Wir werden Daten, Modelle und Code zur Förderung zukünftiger Forschung veröffentlichen: https://github.com/OpenGVLab/ScaleCUA.