Command Palette
Search for a command to run...
MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung
MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung
Zusammenfassung
Wir präsentieren MobileGym, eine browserbasierte, leichtgewichtige und vollständig steuerbare Umgebung für den alltäglichen mobilen Einsatz, die auf Interaktionstreue abzielt, ohne proprietäre Backends zu replizieren. Sie ermöglicht zwei Fähigkeiten, die für alltägliche Apps zuvor unerreichbar waren: verifizierbare Ergebnissignale durch deterministische zustandsbasierte Bewertung über einen strukturierten JSON-Zustand und skalierbares Online-RL durch kostengünstige parallele Rollouts. Der vollständige Umgebungszustand wird als strukturierter JSON erfasst, konfiguriert, geforkt und verglichen, und ein einzelner Server kann Hunderte paralleler Instanzen hosten, mit etwa 400 MB Speicher pro Instanz und einem Kaltstart von etwa 3 s. Ein mehrschichtiges Zustandsmodell und ein deklaratives Aufgabendefinitionsframework gewährleisten, dass die Zustandsprogrammierung und die Aufgabenerstellung auch im großen Maßstab praktikabel bleiben, und ein einzelner programmatischer Bewertungsmechanismus liefert sowohl deterministische Bewertungsurteile als auch dichte RL-Belohnungen. Das begleitende MobileGym-Bench bietet 416 parametrisierte Aufgaben-Templates, darunter 256 Test- und 160 Trainings-Templates, für 28 Apps, mit deterministischen Bewertern und einem strukturierten AnswerSheet-Protokoll, das Fehler bei der Freitextübereinstimmung vermeidet. In einer Sim-to-Real-Fallstudie erzielt GRPO auf Qwen3-VL-4B-Instruct einen Zuwachs von +12,8 Prozentpunkten im Testset mit 256 Aufgaben, und in einer 59 Aufgaben umfassenden Signal-Untermenge realer Geräte behält die Ausführung auf dem physischen Gerät 95,1 % des im Simulationsbetrieb erzielten Trainingsgewinns bei. Projektseite: https://mobilegym.github.io.