HyperAI

Les modèles Vision-Language-Action (VLA) ont montré un fort potentiel pour la manipulation robotique à usage général, mais leur dépendance vis-à-vis de démonstrations d’experts limite leur capacité à apprendre à partir des échecs et à effectuer des auto-corrections. L’apprentissage par renforcement (RL) permet de surmonter ces limitations grâce à des interactions auto-améliorantes avec l’environnement physique, mais souffre d’une complexité échantillonnage élevée sur les robots réels. Nous introduisons World-Model-based Policy Optimization (WMPO), un cadre rigoureux pour le RL VLA en politique optimale (on-policy) sans interaction avec l’environnement réel. Contrairement aux modèles mondiaux latents largement utilisés, WMPO se concentre sur des prédictions basées sur les pixels, alignant ainsi les trajectoires « imaginées » avec les caractéristiques du VLA préentraînées sur des images à grande échelle provenant du web. De manière cruciale, WMPO permet à la politique d’effectuer une optimisation de politique en politique (GRPO), offrant des performances supérieures à celles des méthodes souvent utilisées en politique hors politique (off-policy). Des expériences étendues menées tant dans des environnements simulés qu’en situation réelle démontrent que WMPO : (i) améliore considérablement l’efficacité échantillonnage, (ii) atteint des performances globales supérieures, (iii) présente des comportements émergents tels que l’auto-correction, et (iv) démontre une capacité robuste à la généralisation et à l’apprentissage continu tout au long de la vie.

WMPO : Optimisation de politique fondée sur un modèle mondial pour les modèles vision-langage-action

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

WMPO : Optimisation de politique fondée sur un modèle mondial pour les modèles vision-langage-action

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

Résumé

Construire l'IA avec l'IA

Hyper Newsletters