HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

RLinf-VLA : Un cadre unifié et efficace pour l'entraînement VLA+RL

RLinf-VLA : Un cadre unifié et efficace pour l'entraînement VLA+RL

Résumé

Les progrès récents des modèles fondamentaux de vision et de langage ont considérablement amélioré la compréhension, le raisonnement et la génération multimodaux, stimulant un intérêt croissant pour étendre ces capacités aux environnements incarnés (embodied) à travers des modèles vision-langage-action (VLA). Toutefois, la plupart des modèles VLA sont encore entraînés par une mise au point supervisée (SFT), une approche qui peine à généraliser en cas de décalage de distribution en raison de l’accumulation d’erreurs. L’apprentissage par renforcement (RL) offre une alternative prometteuse en optimisant directement les performances des tâches par interaction, mais les tentatives existantes restent fragmentées et manquent d’une plateforme unifiée permettant des comparaisons justes et systématiques entre différentes architectures de modèles et conceptions algorithmiques. Pour combler ce manque, nous introduisons RLinf-VLA, un cadre unifié et efficace pour l’entraînement par renforcement à grande échelle des modèles VLA. Ce système repose sur une conception très flexible de l’allocation des ressources, permettant de surmonter les défis liés à l’intégration du rendu, de l’entraînement et de l’inférence dans le cadre de l’entraînement RL+VLA. En particulier, pour les simulateurs parallélisés sur GPU, RLinf-VLA met en œuvre un nouveau mode hybride d’allocation fine-grained de pipelines, offrant un gain de vitesse de 1,61 à 1,88 fois pendant l’entraînement. Grâce à une interface unifiée, RLinf-VLA prend en charge de manière transparente diverses architectures VLA (par exemple OpenVLA, OpenVLA-OFT), plusieurs algorithmes de RL (par exemple PPO, GRPO) ainsi que divers simulateurs (par exemple ManiSkill, LIBERO). En simulation, un modèle unifié atteint un taux de succès de 98,11 % sur 130 tâches LIBERO et de 97,66 % sur 25 tâches ManiSkill. Au-delà des performances empiriques, notre étude établit un ensemble de bonnes pratiques pour l’application du RL à l’entraînement des modèles VLA, tout en éclairant des tendances émergentes dans cette intégration. En outre, nous présentons une première mise en œuvre sur un robot réel Franka, où les politiques entraînées par RL montrent une meilleure généralisation que celles entraînées par SFT. Nous voyons en RLinf-VLA une base fondamentale pour accélérer et standardiser la recherche en intelligence incarnée.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RLinf-VLA : Un cadre unifié et efficace pour l'entraînement VLA+RL | Articles de recherche | HyperAI