il y a 2 mois

SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement

Voir les détails de l'article Voir le code

Haozhan Li Yuxin Zuo Jiale Yu Yuhao Zhang Zhaohui Yang Kaiyan Zhang Xuekai Zhu Yuchen Zhang Tianxing Chen Ganqu Cui

SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement

Résumé

Les modèles Vision-Language-Action (VLA) sont récemment apparus comme un paradigme puissant pour la manipulation robotique. Malgré les progrès significatifs permis par l’entraînement préalable à grande échelle et le fine-tuning supervisé (SFT), ces modèles font face à deux défis fondamentaux : (i) la rareté et le coût élevé des trajectoires robotiques opérées par des humains à grande échelle nécessaires à l’échelonnage du SFT, et (ii) une généralisation limitée aux tâches impliquant un décalage de distribution. Les récents progrès réalisés dans les grands modèles de raisonnement (LRM) montrent que l’apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement étape par étape, soulevant une question naturelle : le RL peut-il également améliorer le planification d’actions pas à pas à long horizon des modèles VLA ? Dans ce travail, nous introduisons SimpleVLA-RL, un cadre d’apprentissage par renforcement efficace spécifiquement conçu pour les modèles VLA. S’appuyant sur veRL, nous proposons un échantillonnage de trajectoires spécifique aux VLA, une parallélisation évolutif, une génération de rendus multi-environnement et un calcul de perte optimisé. Lorsqu’il est appliqué à OpenVLA-OFT, SimpleVLA-RL atteint des performances de l’état de l’art (SoTA) sur LIBERO, et dépasse même pi_0 sur RoboTwin 1.0 et 2.0 grâce aux stratégies d’exploration que nous introduisons. SimpleVLA-RL réduit non seulement la dépendance aux grandes quantités de données, mais permet également une généralisation robuste, tout en surpassant de manière remarquable le SFT dans des tâches du monde réel. En outre, nous identifions un phénomène nouveau, baptisé « pushcut », observé pendant l’entraînement par renforcement, au cours duquel la politique découvre des motifs auparavant inédits, allant au-delà de ceux observés lors des phases précédentes d’entraînement.GitHub : https://github.com/PRIME-RL/SimpleVLA-RL

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement

Haozhan Li Yuxin Zuo Jiale Yu Yuhao Zhang Zhaohui Yang Kaiyan Zhang Xuekai Zhu Yuchen Zhang Tianxing Chen Ganqu Cui11 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Haozhan Li Yuxin Zuo Jiale Yu Yuhao Zhang Zhaohui Yang Kaiyan Zhang Xuekai Zhu Yuchen Zhang Tianxing Chen Ganqu Cui