HyperAIHyperAI

Command Palette

Search for a command to run...

vor 13 Tagen

WMPO: Weltmodellbasierte Politikoptimierung für visuelle-Sprache-Aktions-Modelle

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

WMPO: Weltmodellbasierte Politikoptimierung für visuelle-Sprache-Aktions-Modelle

Abstract

Vision-Language-Action-(VLA)-Modelle haben ein hohes Potenzial für allgemein einsetzbare robotische Manipulation gezeigt, doch ihre Abhängigkeit von Expertendemonstrationen begrenzt ihre Fähigkeit, aus Fehlern zu lernen und selbstkorrigierend zu agieren. Verstärkendes Lernen (Reinforcement Learning, RL) adressiert diese Herausforderungen durch selbstverbessernde Interaktionen mit der physischen Umgebung, leidet jedoch auf realen Robotern unter hoher Stichprobenkomplexität. Wir stellen World-Model-basierte Policy-Optimierung (WMPO) vor, einen konsistenten Rahmen für on-policy VLA-RL, der ohne Interaktion mit der realen Umgebung auskommt. Im Gegensatz zu weit verbreiteten latente-Welt-Modellen legt WMPO den Fokus auf pixelbasierte Vorhersagen, die die „vorgestellten“ Trajektorien mit den VLA-Features ausrichtet, die mit web-skalaren Bildern vortrainiert wurden. Entscheidend ist, dass WMPO es der Policy ermöglicht, on-policy GRPO (Generalized Reward Policy Optimization) durchzuführen, was eine deutlich höhere Leistung als die häufig verwendeten off-policy Methoden erzielt. Umfangreiche Experimente sowohl in Simulation als auch mit realen Robotern zeigen, dass WMPO (i) die Stichprobeneffizienz erheblich verbessert, (ii) eine überlegene Gesamtleistung erreicht, (iii) emergente Verhaltensweisen wie Selbstkorrektur zeigt und (iv) robuste Generalisierungsfähigkeit sowie Fähigkeiten für lebenslanges Lernen demonstriert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WMPO: Weltmodellbasierte Politikoptimierung für visuelle-Sprache-Aktions-Modelle | Forschungsarbeiten | HyperAI