HyperAIHyperAI

Command Palette

Search for a command to run...

Mobile-Agent-v3: Grundlegende Agenten für die GUI-Automatisierung

Zusammenfassung

Diese Arbeit stellt GUI-Owl vor, ein grundlegendes GUI-Agentenmodell, das unter den Open-Source-End-to-End-Modellen auf zehn GUI-Benchmarks in Desktop- und mobilen Umgebungen die derzeit beste Leistung erzielt. Es deckt Aspekte wie Grounding, Fragebeantwortung, Planung, Entscheidungsfindung und prozedurales Wissen ab. GUI-Owl-7B erreicht eine Performance von 66,4 auf AndroidWorld und 29,4 auf OSWorld. Aufbauend darauf präsentieren wir Mobile-Agent-v3, einen allgemein verwendbaren GUI-Agenten-Framework, der die Leistung weiter verbessert und 73,3 auf AndroidWorld sowie 37,7 auf OSWorld erreicht – damit wird ein neuer State-of-the-Art für Open-Source-GUI-Agenten-Frameworks etabliert.GUI-Owl integriert drei zentrale Innovationen: (1) Großskalige Umgebungsinfrastruktur: eine cloudbasierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows abdeckt, die unser Self-Evolving GUI Trajectory Production-System ermöglicht. Diese Infrastruktur erzeugt hochwertige Interaktionsdaten durch automatisierte Abfragegenerierung und Korrektheitsvalidierung und nutzt GUI-Owl selbst, um die Trajektorien iterativ zu verfeinern und so eine selbstverbessernde Schleife zu schaffen. Sie unterstützt vielfältige Datenpipelines und reduziert den Bedarf an manueller Annotation. (2) Diversifizierte grundlegende Agentenfähigkeiten: Durch die Integration von UI-Grounding, Planung, Aktionssemantik und Schlussfolgerungsmustern unterstützt GUI-Owl end-to-end-Entscheidungsfindung und kann als modulare Komponente in Multi-Agenten-Systemen eingesetzt werden. (3) Skalierbares Umgebungsszenario für Reinforcement Learning (RL): Wir entwickeln ein skalierbares RL-Framework mit vollständig asynchronem Training zur Verbesserung der Echtwelt-Konformität. Zudem führen wir Trajectory-aware Relative Policy Optimization (TRPO) für Online-RL ein, das eine Performance von 34,9 auf OSWorld erreicht.GUI-Owl und Mobile-Agent-v3 sind unter https://github.com/X-PLUG/MobileAgent als Open Source verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mobile-Agent-v3: Grundlegende Agenten für die GUI-Automatisierung | Paper | HyperAI