WMPO: Weltmodellbasierte Politikoptimierung für visuelle-Sprache-Aktions-Modelle
Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

Abstract
Vision-Language-Action-(VLA)-Modelle haben ein hohes Potenzial für allgemein einsetzbare robotische Manipulation gezeigt, doch ihre Abhängigkeit von Expertendemonstrationen begrenzt ihre Fähigkeit, aus Fehlern zu lernen und selbstkorrigierend zu agieren. Verstärkendes Lernen (Reinforcement Learning, RL) adressiert diese Herausforderungen durch selbstverbessernde Interaktionen mit der physischen Umgebung, leidet jedoch auf realen Robotern unter hoher Stichprobenkomplexität. Wir stellen World-Model-basierte Policy-Optimierung (WMPO) vor, einen konsistenten Rahmen für on-policy VLA-RL, der ohne Interaktion mit der realen Umgebung auskommt. Im Gegensatz zu weit verbreiteten latente-Welt-Modellen legt WMPO den Fokus auf pixelbasierte Vorhersagen, die die „vorgestellten“ Trajektorien mit den VLA-Features ausrichtet, die mit web-skalaren Bildern vortrainiert wurden. Entscheidend ist, dass WMPO es der Policy ermöglicht, on-policy GRPO (Generalized Reward Policy Optimization) durchzuführen, was eine deutlich höhere Leistung als die häufig verwendeten off-policy Methoden erzielt. Umfangreiche Experimente sowohl in Simulation als auch mit realen Robotern zeigen, dass WMPO (i) die Stichprobeneffizienz erheblich verbessert, (ii) eine überlegene Gesamtleistung erreicht, (iii) emergente Verhaltensweisen wie Selbstkorrektur zeigt und (iv) robuste Generalisierungsfähigkeit sowie Fähigkeiten für lebenslanges Lernen demonstriert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.