Command Palette
Search for a command to run...
SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement

Résumé
Les modèles Vision-Language-Action (VLA) sont récemment apparus comme un paradigme puissant pour la manipulation robotique. Malgré les progrès significatifs permis par l’entraînement préalable à grande échelle et le fine-tuning supervisé (SFT), ces modèles font face à deux défis fondamentaux : (i) la rareté et le coût élevé des trajectoires robotiques opérées par des humains à grande échelle nécessaires à l’échelonnage du SFT, et (ii) une généralisation limitée aux tâches impliquant un décalage de distribution. Les récents progrès réalisés dans les grands modèles de raisonnement (LRM) montrent que l’apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement étape par étape, soulevant une question naturelle : le RL peut-il également améliorer le planification d’actions pas à pas à long horizon des modèles VLA ? Dans ce travail, nous introduisons SimpleVLA-RL, un cadre d’apprentissage par renforcement efficace spécifiquement conçu pour les modèles VLA. S’appuyant sur veRL, nous proposons un échantillonnage de trajectoires spécifique aux VLA, une parallélisation évolutif, une génération de rendus multi-environnement et un calcul de perte optimisé. Lorsqu’il est appliqué à OpenVLA-OFT, SimpleVLA-RL atteint des performances de l’état de l’art (SoTA) sur LIBERO, et dépasse même pi_0 sur RoboTwin 1.0 et 2.0 grâce aux stratégies d’exploration que nous introduisons. SimpleVLA-RL réduit non seulement la dépendance aux grandes quantités de données, mais permet également une généralisation robuste, tout en surpassant de manière remarquable le SFT dans des tâches du monde réel. En outre, nous identifions un phénomène nouveau, baptisé « pushcut », observé pendant l’entraînement par renforcement, au cours duquel la politique découvre des motifs auparavant inédits, allant au-delà de ceux observés lors des phases précédentes d’entraînement.GitHub : https://github.com/PRIME-RL/SimpleVLA-RL
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.