Command Palette
Search for a command to run...
VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux

Résumé
Les modèles Vision-Language-Action (VLA) permettent la prise de décision incarnée, mais s’appuient fortement sur l’apprentissage par imitation, ce qui entraîne une accumulation d’erreurs et une faible robustesse en cas de décalage de distribution. L’apprentissage par renforcement (RL) peut atténuer ces problèmes, mais exige généralement des interactions coûteuses dans le monde réel ou souffre d’un écart entre simulation et réalité (sim-to-real). Nous introduisons VLA-RFT, un cadre d’ajustement fin par renforcement qui exploite un modèle du monde fondé sur les données comme simulateur contrôlable. Entraîné à partir de données d’interactions réelles, ce simulateur prédit les observations visuelles futures conditionnellement aux actions, permettant ainsi des tirages de politiques (policy rollouts) accompagnés de récompenses denses et de niveau trajectoire, dérivées de références liées à l’atteinte d’un objectif. Ce design fournit un signal d’apprentissage efficace et aligné sur les actions, réduisant drastiquement les besoins en échantillons. En moins de 400 étapes d’ajustement fin, VLA-RFT dépasse les performances des baselines supervisées fortes et atteint une efficacité supérieure à celle du RL basé sur simulateur. De plus, il démontre une robustesse remarquable en conditions perturbées, assurant une exécution stable des tâches. Nos résultats établissent le cadre d’ajustement fin par renforcement basé sur un modèle du monde comme une approche pratique de post-entraînement pour améliorer la généralisation et la robustesse des modèles VLA. Pour plus de détails, veuillez consulter https://vla-rft.github.io/.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.