vor 2 Tagen

Mobile-Agent-v3: Grundlegende Agenten für die GUI-Automatisierung

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan

Details der Forschungsarbeit anzeigen

Mobile-Agent-v3: Grundlegende Agenten für die GUI-Automatisierung

Abstract

Diese Arbeit stellt GUI-Owl vor, ein grundlegendes GUI-Agentenmodell, das unter den Open-Source-End-to-End-Modellen auf zehn GUI-Benchmarks in Desktop- und mobilen Umgebungen die derzeit beste Leistung erzielt. Es deckt Aspekte wie Grounding, Fragebeantwortung, Planung, Entscheidungsfindung und prozedurales Wissen ab. GUI-Owl-7B erreicht eine Performance von 66,4 auf AndroidWorld und 29,4 auf OSWorld. Aufbauend darauf präsentieren wir Mobile-Agent-v3, einen allgemein verwendbaren GUI-Agenten-Framework, der die Leistung weiter verbessert und 73,3 auf AndroidWorld sowie 37,7 auf OSWorld erreicht – damit wird ein neuer State-of-the-Art für Open-Source-GUI-Agenten-Frameworks etabliert.GUI-Owl integriert drei zentrale Innovationen: (1) Großskalige Umgebungsinfrastruktur: eine cloudbasierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows abdeckt, die unser Self-Evolving GUI Trajectory Production-System ermöglicht. Diese Infrastruktur erzeugt hochwertige Interaktionsdaten durch automatisierte Abfragegenerierung und Korrektheitsvalidierung und nutzt GUI-Owl selbst, um die Trajektorien iterativ zu verfeinern und so eine selbstverbessernde Schleife zu schaffen. Sie unterstützt vielfältige Datenpipelines und reduziert den Bedarf an manueller Annotation. (2) Diversifizierte grundlegende Agentenfähigkeiten: Durch die Integration von UI-Grounding, Planung, Aktionssemantik und Schlussfolgerungsmustern unterstützt GUI-Owl end-to-end-Entscheidungsfindung und kann als modulare Komponente in Multi-Agenten-Systemen eingesetzt werden. (3) Skalierbares Umgebungsszenario für Reinforcement Learning (RL): Wir entwickeln ein skalierbares RL-Framework mit vollständig asynchronem Training zur Verbesserung der Echtwelt-Konformität. Zudem führen wir Trajectory-aware Relative Policy Optimization (TRPO) für Online-RL ein, das eine Performance von 34,9 auf OSWorld erreicht.GUI-Owl und Mobile-Agent-v3 sind unter https://github.com/X-PLUG/MobileAgent als Open Source verfügbar.