Command Palette
Search for a command to run...
UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

Abstract
Graphical User Interface (GUI)-Agenten haben durch Verstärkungslernen bemerkenswerte Fortschritte bei der Automatisierung komplexer Benutzeroberflächen-Interaktionen erzielt. Allerdings stehen aktuelle Ansätze vor einer grundlegenden Dilemma: Offline-Verstärkungslernen ermöglicht stabiles Training an vorab gesammelten Trajektorien, stößt jedoch bei der Ausführung mehrschrittiger Aufgaben auf Schwierigkeiten, da fehlende belohnungsbezogene Signale auf Trajektorie-Ebene vorliegen; Online-Verstärkungslernen hingegen erfasst diese Signale durch Interaktion mit der Umgebung, leidet jedoch unter spärlichen Belohnungen und prohibitiv hohen Einsatzkosten. Um dieses Problem zu lösen, stellen wir ein neuartiges Paradigma namens Semi-Online Reinforcement Learning vor, das das Online-Verstärkungslernen auf Basis von Offline-Trajektorien simuliert. Während jedes Rollout-Prozesses bewahren wir die ursprünglichen Modellausgaben innerhalb des mehrschrittigen Dialogs bei, wobei ein Patch-Modul adaptiv die Abweichungen zwischen Rollout- und Experten-Trajektorien korrigiert. Um langfristige Trainingssignale zu erfassen, integriert Semi-Online RL abgezinsten zukünftigen Ertrag in die Belohnungsberechnung und optimiert die Politik mittels gewichteter Schritt- und Episoden-Level-Vorteile. Darüber hinaus führen wir die Metrik Semi-Online Performance (SOP) ein, die besser mit der tatsächlichen Online-Leistung korreliert und somit eine praktikable und effektive Proxy-Metrik für die Bewertung in der realen Welt darstellt. Experimente zeigen, dass unser Semi-Online Reinforcement Learning bei sieben Milliarden Parametern (7B-Modellen) auf vier dynamischen Benchmarks die Stand-of-the-Art-Leistung erreicht, wobei gegenüber dem Basismodell signifikante Verbesserungen erzielt werden (z. B. +12,0 % auf AndroidWorld, +23,8 % auf AITW). Dies belegt einen bedeutenden Fortschritt bei der Brücke zwischen der Effizienz des Offline-Trainings und der Online-Mehrschritt-Reasoning-Fähigkeit. Der Quellcode ist unter https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1 verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.