Befestigung von Computer-Verwendungs-Agenten an menschliche Demonstrationen

Abstract
Die Entwicklung zuverlässiger Computer-Nutzungs-Agenten erfordert eine fundierte Verankerung: die präzise Verknüpfung natürlicher Sprachanweisungen mit den entsprechenden Elementen auf dem Bildschirm. Obwohl große Datensätze für Web- und Mobile-Interaktionen existieren, sind hochwertige Ressourcen für Desktop-Umgebungen begrenzt. Um diese Lücke zu schließen, stellen wir GroundCUA vor – einen großskaligen Datensatz zur Desktop-Verankerung, der aus Experten-Demonstrationen menschlicher Benutzer gewonnen wurde. Der Datensatz umfasst 87 Anwendungen aus 12 Kategorien und enthält 56.000 Bildschirmfotos, wobei jedes Bildschirmelement sorgfältig annotiert wurde, was insgesamt über 3,56 Millionen menschlich überprüfte Annotationen ergibt. Aus diesen Demonstrationen generieren wir vielfältige Anweisungen, die eine breite Palette realwelttypischer Aufgaben abdecken und somit hochwertige Daten für das Modelltraining bereitstellen. Anhand von GroundCUA entwickeln wir die GroundNext-Serie von Modellen, die Anweisungen auf die entsprechenden UI-Elemente abbilden. Bei den Größenordnungen von 3B und 7B erzielt GroundNext state-of-the-art-Ergebnisse auf fünf Benchmarks durch überwachtes Feinabstimmen, wobei weniger als ein Zehntel der Trainingsdaten im Vergleich zu vorherigen Arbeiten benötigt werden. Eine nachfolgende Verstärkungslern-Phase (Reinforcement Learning) verbessert die Leistung weiter, und bei der Evaluierung in einer agentenbasierten Umgebung auf dem OSWorld-Benchmark mit o3 als Planer erreicht GroundNext Ergebnisse, die mit oder sogar überlegen sind gegenüber Modellen, die mit erheblich mehr Daten trainiert wurden. Diese Ergebnisse belegen die entscheidende Rolle hochwertiger, expertenbasiert generierter Datensätze für die Weiterentwicklung allgemein einsetzbarer Computer-Nutzungs-Agenten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.