GTA1: GUI-Testzeit-Skalierungs-Agent

Grafische Benutzeroberflächen (GUI) Agenten operieren autonom über Plattformen (z.B. Linux), um Aufgaben durch Interaktion mit visuellen Elementen zu erfüllen. Insbesondere wird eine Benutzeranweisung in eine Sequenz von Aktionsschlägen zerlegt, wobei jede Aktion einer Interaktion mit der GUI entspricht. Nach jeder Aktion beobachtet der Agent die aktualisierte GUI-Umgebung, um den nächsten Schritt zu planen.Zwei Hauptprobleme treten jedoch auf: i) die Auflösung von Ambiguitäten im Aufgabenplanungsprozess (d.h., der Sequenz der Aktionsschläge), bei denen die Auswahl eines geeigneten Plans nicht trivial ist, da viele gültige Pläne existieren können; ii) die genaue Verankerung von Aktionen in komplexen und hochaufgelösten Schnittstellen, d.h., die präzise Interaktion mit visuellen Zielen.In dieser Arbeit untersuchen wir diese beiden oben genannten Herausforderungen mit unserem GUI Test-time Scaling Agent, kurz GTA1. Erstens, um den geeignetsten Aktionsschlag auszuwählen, führen wir eine Methode zur Skalierung in der Testphase ein. Bei jedem Schritt generieren wir mehrere Kandidaten-Aktionsschläge und nutzen ein Bewertungsmodell, um den besten zu evaluieren und auszuwählen. Diese Methode tauscht Rechenleistung gegen bessere Entscheidungsqualität durch paralleles Sampling, verkürzt die Anzahl der Schritte zur Aufgabenbearbeitung und verbessert insgesamt die Leistung. Zweitens schlagen wir ein Modell vor, das eine höhere Genauigkeit bei der Verankerung des gewählten Aktionsschlags in den entsprechenden visuellen Elementen erreicht. Unser zentrales Erkenntnis ist, dass das Reinforcement Learning (RL) durch inhärente Zielausrichtungen die visuelle Verankerung fördert und erfolgreiche Klicks auf Schnittstellenelemente belohnt.Experimentell etabliert unsere Methode den Stand der Technik in verschiedenen Benchmarks. Zum Beispiel erreicht GTA1-7B Genauigkeiten von 50,1 %, 92,4 % und 67,7 % auf Screenspot-Pro, Screenspot-V2 und OSWorld-G respektive. Wenn es mit einem Planer kombiniert wird, der unsere Strategie zur Skalierung in der Testphase anwendet, zeigt es den Stand der Technik hinsichtlich agenter Leistung (z.B., 45,2 % Erfolgsrate bei Aufgaben auf OSWorld). Wir stellen unseren Code und unsere Modelle als Open Source zur Verfügung.Hinweise:- "Aktionsschläge" ist hier als Übersetzung für "action proposals" verwendet.- "Aufgabenplanungsprozess" übersetzt "task planning".- "Verankerung" übersetzt "grounding", was im Kontext von GUI-Interaktionen oft verwendet wird.- Die Zahlenwerte wurden unverändert übernommen.- Der letzte Satz wurde so formuliert, dass er klar und formal klingt.