HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten

ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten

Abstract

Vision-Language-Modelle (VLMs) haben Computer-Use-Agenten (CUAs) ermöglicht, die grafische Benutzeroberflächen (GUIs) autonom bedienen, und zeigen großes Potenzial. Dennoch ist der Fortschritt bisher durch den Mangel an großskaligen, quelloffenen Daten sowie Grundmodelle für den Computergebrauch eingeschränkt. In dieser Arbeit stellen wir ScaleCUA vor – einen Schritt hin zu einer Skalierung quelloffener CUAs. ScaleCUA bietet einen großskaligen Datensatz, der sechs Betriebssysteme und drei Aufgabendomänen abdeckt, und wurde mittels einer geschlossenen Schleife entwickelt, die automatisierte Agenten mit menschlichen Experten verbindet. Auf dieser erweiterten Datenbasis trainiert, kann ScaleCUA nahtlos über verschiedene Plattformen hinweg operieren. Insbesondere erzielt es deutliche Verbesserungen gegenüber Baseline-Modellen (+26,6 auf WebArena-Lite-v2, +10,7 auf ScreenSpot-Pro) und erreicht neue Sollwert-Resultate (94,4 % auf MMBench-GUI L1-Hard, 60,6 % auf OSWorld-G, 47,4 % auf WebArena-Lite-v2). Diese Ergebnisse unterstreichen die Kraft datengetriebener Skalierung für allgemein einsetzbare Computer-Use-Agenten. Wir werden Daten, Modelle und Code zur Förderung zukünftiger Forschung veröffentlichen: https://github.com/OpenGVLab/ScaleCUA.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten | Forschungsarbeiten | HyperAI