Mobile-Agent-v3: Grundlegende Agenten für die GUI-Automatisierung

Diese Arbeit stellt GUI-Owl vor, ein grundlegendes GUI-Agentenmodell, das unter den Open-Source-End-to-End-Modellen auf zehn GUI-Benchmarks in Desktop- und mobilen Umgebungen die derzeit beste Leistung erzielt. Es deckt Aspekte wie Grounding, Fragebeantwortung, Planung, Entscheidungsfindung und prozedurales Wissen ab. GUI-Owl-7B erreicht eine Performance von 66,4 auf AndroidWorld und 29,4 auf OSWorld. Aufbauend darauf präsentieren wir Mobile-Agent-v3, einen allgemein verwendbaren GUI-Agenten-Framework, der die Leistung weiter verbessert und 73,3 auf AndroidWorld sowie 37,7 auf OSWorld erreicht – damit wird ein neuer State-of-the-Art für Open-Source-GUI-Agenten-Frameworks etabliert.GUI-Owl integriert drei zentrale Innovationen: (1) Großskalige Umgebungsinfrastruktur: eine cloudbasierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows abdeckt, die unser Self-Evolving GUI Trajectory Production-System ermöglicht. Diese Infrastruktur erzeugt hochwertige Interaktionsdaten durch automatisierte Abfragegenerierung und Korrektheitsvalidierung und nutzt GUI-Owl selbst, um die Trajektorien iterativ zu verfeinern und so eine selbstverbessernde Schleife zu schaffen. Sie unterstützt vielfältige Datenpipelines und reduziert den Bedarf an manueller Annotation. (2) Diversifizierte grundlegende Agentenfähigkeiten: Durch die Integration von UI-Grounding, Planung, Aktionssemantik und Schlussfolgerungsmustern unterstützt GUI-Owl end-to-end-Entscheidungsfindung und kann als modulare Komponente in Multi-Agenten-Systemen eingesetzt werden. (3) Skalierbares Umgebungsszenario für Reinforcement Learning (RL): Wir entwickeln ein skalierbares RL-Framework mit vollständig asynchronem Training zur Verbesserung der Echtwelt-Konformität. Zudem führen wir Trajectory-aware Relative Policy Optimization (TRPO) für Online-RL ein, das eine Performance von 34,9 auf OSWorld erreicht.GUI-Owl und Mobile-Agent-v3 sind unter https://github.com/X-PLUG/MobileAgent als Open Source verfügbar.