HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

WMPO : Optimisation de politique fondée sur un modèle mondial pour les modèles vision-langage-action

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

WMPO : Optimisation de politique fondée sur un modèle mondial pour les modèles vision-langage-action

Résumé

Les modèles Vision-Language-Action (VLA) ont montré un fort potentiel pour la manipulation robotique à usage général, mais leur dépendance vis-à-vis de démonstrations d’experts limite leur capacité à apprendre à partir des échecs et à effectuer des auto-corrections. L’apprentissage par renforcement (RL) permet de surmonter ces limitations grâce à des interactions auto-améliorantes avec l’environnement physique, mais souffre d’une complexité échantillonnage élevée sur les robots réels. Nous introduisons World-Model-based Policy Optimization (WMPO), un cadre rigoureux pour le RL VLA en politique optimale (on-policy) sans interaction avec l’environnement réel. Contrairement aux modèles mondiaux latents largement utilisés, WMPO se concentre sur des prédictions basées sur les pixels, alignant ainsi les trajectoires « imaginées » avec les caractéristiques du VLA préentraînées sur des images à grande échelle provenant du web. De manière cruciale, WMPO permet à la politique d’effectuer une optimisation de politique en politique (GRPO), offrant des performances supérieures à celles des méthodes souvent utilisées en politique hors politique (off-policy). Des expériences étendues menées tant dans des environnements simulés qu’en situation réelle démontrent que WMPO : (i) améliore considérablement l’efficacité échantillonnage, (ii) atteint des performances globales supérieures, (iii) présente des comportements émergents tels que l’auto-correction, et (iv) démontre une capacité robuste à la généralisation et à l’apprentissage continu tout au long de la vie.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp