vor 2 Monaten

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

Details der Forschungsarbeit anzeigen Code anzeigen

Zhengxi Lu Jiabo Ye Fei Tang Yongliang Shen Haiyang Xu Ziwei Zheng Weiming Lu Ming Yan Fei Huang Jun Xiao

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

Abstract

Graphical User Interface (GUI)-Agenten haben durch Verstärkungslernen bemerkenswerte Fortschritte bei der Automatisierung komplexer Benutzeroberflächen-Interaktionen erzielt. Allerdings stehen aktuelle Ansätze vor einer grundlegenden Dilemma: Offline-Verstärkungslernen ermöglicht stabiles Training an vorab gesammelten Trajektorien, stößt jedoch bei der Ausführung mehrschrittiger Aufgaben auf Schwierigkeiten, da fehlende belohnungsbezogene Signale auf Trajektorie-Ebene vorliegen; Online-Verstärkungslernen hingegen erfasst diese Signale durch Interaktion mit der Umgebung, leidet jedoch unter spärlichen Belohnungen und prohibitiv hohen Einsatzkosten. Um dieses Problem zu lösen, stellen wir ein neuartiges Paradigma namens Semi-Online Reinforcement Learning vor, das das Online-Verstärkungslernen auf Basis von Offline-Trajektorien simuliert. Während jedes Rollout-Prozesses bewahren wir die ursprünglichen Modellausgaben innerhalb des mehrschrittigen Dialogs bei, wobei ein Patch-Modul adaptiv die Abweichungen zwischen Rollout- und Experten-Trajektorien korrigiert. Um langfristige Trainingssignale zu erfassen, integriert Semi-Online RL abgezinsten zukünftigen Ertrag in die Belohnungsberechnung und optimiert die Politik mittels gewichteter Schritt- und Episoden-Level-Vorteile. Darüber hinaus führen wir die Metrik Semi-Online Performance (SOP) ein, die besser mit der tatsächlichen Online-Leistung korreliert und somit eine praktikable und effektive Proxy-Metrik für die Bewertung in der realen Welt darstellt. Experimente zeigen, dass unser Semi-Online Reinforcement Learning bei sieben Milliarden Parametern (7B-Modellen) auf vier dynamischen Benchmarks die Stand-of-the-Art-Leistung erreicht, wobei gegenüber dem Basismodell signifikante Verbesserungen erzielt werden (z. B. +12,0 % auf AndroidWorld, +23,8 % auf AITW). Dies belegt einen bedeutenden Fortschritt bei der Brücke zwischen der Effizienz des Offline-Trainings und der Online-Mehrschritt-Reasoning-Fähigkeit. Der Quellcode ist unter https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1 verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

Zhengxi Lu Jiabo Ye Fei Tang Yongliang Shen Haiyang Xu Ziwei Zheng Weiming Lu Ming Yan Fei Huang Jun Xiao1 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Zhengxi Lu Jiabo Ye Fei Tang Yongliang Shen Haiyang Xu Ziwei Zheng Weiming Lu Ming Yan Fei Huang Jun Xiao