HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement

SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement

Résumé

Les modèles Vision-Language-Action (VLA) sont récemment apparus comme un paradigme puissant pour la manipulation robotique. Malgré les progrès significatifs permis par l’entraînement préalable à grande échelle et le fine-tuning supervisé (SFT), ces modèles font face à deux défis fondamentaux : (i) la rareté et le coût élevé des trajectoires robotiques opérées par des humains à grande échelle nécessaires à l’échelonnage du SFT, et (ii) une généralisation limitée aux tâches impliquant un décalage de distribution. Les récents progrès réalisés dans les grands modèles de raisonnement (LRM) montrent que l’apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement étape par étape, soulevant une question naturelle : le RL peut-il également améliorer le planification d’actions pas à pas à long horizon des modèles VLA ? Dans ce travail, nous introduisons SimpleVLA-RL, un cadre d’apprentissage par renforcement efficace spécifiquement conçu pour les modèles VLA. S’appuyant sur veRL, nous proposons un échantillonnage de trajectoires spécifique aux VLA, une parallélisation évolutif, une génération de rendus multi-environnement et un calcul de perte optimisé. Lorsqu’il est appliqué à OpenVLA-OFT, SimpleVLA-RL atteint des performances de l’état de l’art (SoTA) sur LIBERO, et dépasse même pi_0 sur RoboTwin 1.0 et 2.0 grâce aux stratégies d’exploration que nous introduisons. SimpleVLA-RL réduit non seulement la dépendance aux grandes quantités de données, mais permet également une généralisation robuste, tout en surpassant de manière remarquable le SFT dans des tâches du monde réel. En outre, nous identifions un phénomène nouveau, baptisé « pushcut », observé pendant l’entraînement par renforcement, au cours duquel la politique découvre des motifs auparavant inédits, allant au-delà de ceux observés lors des phases précédentes d’entraînement.GitHub : https://github.com/PRIME-RL/SimpleVLA-RL

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SimpleVLA-RL : Échelle d'entraînement des VLA par apprentissage par renforcement | Articles de recherche | HyperAI