HyperAIHyperAI

Command Palette

Search for a command to run...

vor 14 Tagen

Befestigung von Computer-Verwendungs-Agenten an menschliche Demonstrationen

Befestigung von Computer-Verwendungs-Agenten an menschliche Demonstrationen

Abstract

Die Entwicklung zuverlässiger Computer-Nutzungs-Agenten erfordert eine fundierte Verankerung: die präzise Verknüpfung natürlicher Sprachanweisungen mit den entsprechenden Elementen auf dem Bildschirm. Obwohl große Datensätze für Web- und Mobile-Interaktionen existieren, sind hochwertige Ressourcen für Desktop-Umgebungen begrenzt. Um diese Lücke zu schließen, stellen wir GroundCUA vor – einen großskaligen Datensatz zur Desktop-Verankerung, der aus Experten-Demonstrationen menschlicher Benutzer gewonnen wurde. Der Datensatz umfasst 87 Anwendungen aus 12 Kategorien und enthält 56.000 Bildschirmfotos, wobei jedes Bildschirmelement sorgfältig annotiert wurde, was insgesamt über 3,56 Millionen menschlich überprüfte Annotationen ergibt. Aus diesen Demonstrationen generieren wir vielfältige Anweisungen, die eine breite Palette realwelttypischer Aufgaben abdecken und somit hochwertige Daten für das Modelltraining bereitstellen. Anhand von GroundCUA entwickeln wir die GroundNext-Serie von Modellen, die Anweisungen auf die entsprechenden UI-Elemente abbilden. Bei den Größenordnungen von 3B und 7B erzielt GroundNext state-of-the-art-Ergebnisse auf fünf Benchmarks durch überwachtes Feinabstimmen, wobei weniger als ein Zehntel der Trainingsdaten im Vergleich zu vorherigen Arbeiten benötigt werden. Eine nachfolgende Verstärkungslern-Phase (Reinforcement Learning) verbessert die Leistung weiter, und bei der Evaluierung in einer agentenbasierten Umgebung auf dem OSWorld-Benchmark mit o3 als Planer erreicht GroundNext Ergebnisse, die mit oder sogar überlegen sind gegenüber Modellen, die mit erheblich mehr Daten trainiert wurden. Diese Ergebnisse belegen die entscheidende Rolle hochwertiger, expertenbasiert generierter Datensätze für die Weiterentwicklung allgemein einsetzbarer Computer-Nutzungs-Agenten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Befestigung von Computer-Verwendungs-Agenten an menschliche Demonstrationen | Forschungsarbeiten | HyperAI