vor 5 Monaten

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

Zusammenfassung

Vision-Language-Modelle (VLMs) haben Computer-Use-Agenten (CUAs) ermöglicht, die grafische Benutzeroberflächen (GUIs) autonom bedienen, und zeigen großes Potenzial. Dennoch ist der Fortschritt bisher durch den Mangel an großskaligen, quelloffenen Daten sowie Grundmodelle für den Computergebrauch eingeschränkt. In dieser Arbeit stellen wir ScaleCUA vor – einen Schritt hin zu einer Skalierung quelloffener CUAs. ScaleCUA bietet einen großskaligen Datensatz, der sechs Betriebssysteme und drei Aufgabendomänen abdeckt, und wurde mittels einer geschlossenen Schleife entwickelt, die automatisierte Agenten mit menschlichen Experten verbindet. Auf dieser erweiterten Datenbasis trainiert, kann ScaleCUA nahtlos über verschiedene Plattformen hinweg operieren. Insbesondere erzielt es deutliche Verbesserungen gegenüber Baseline-Modellen (+26,6 auf WebArena-Lite-v2, +10,7 auf ScreenSpot-Pro) und erreicht neue Sollwert-Resultate (94,4 % auf MMBench-GUI L1-Hard, 60,6 % auf OSWorld-G, 47,4 % auf WebArena-Lite-v2). Diese Ergebnisse unterstreichen die Kraft datengetriebener Skalierung für allgemein einsetzbare Computer-Use-Agenten. Wir werden Daten, Modelle und Code zur Förderung zukünftiger Forschung veröffentlichen: https://github.com/OpenGVLab/ScaleCUA.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Agent

Datensatz

Mensch-Computer-Interaktion

Forschungsgebiet

KI-Infrastruktur

Ansatz/Rahmenwerk

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Agent

Datensatz

Mensch-Computer-Interaktion

Forschungsgebiet

KI-Infrastruktur

Ansatz/Rahmenwerk

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang11 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang11 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ScaleCUA: Skalierung von Open-Source-Computer-Nutzungs-Agenten mit plattformübergreifenden Daten

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang11 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang

Zhaoyang Liu JingJing Xie Zichen Ding Zehao Li Bowen Yang Zhenyu Wu Xuehui Wang Qiushi Sun Shi Liu Weiyun Wang