il y a un mois

VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux

Voir les détails de l'article Voir le code

Hengtao Li Pengxiang Ding Runze Suo Yihao Wang Zirui Ge Dongyuan Zang Kexian Yu Mingyang Sun Hongyin Zhang Donglin Wang

VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux

Résumé

Les modèles Vision-Language-Action (VLA) permettent la prise de décision incarnée, mais s’appuient fortement sur l’apprentissage par imitation, ce qui entraîne une accumulation d’erreurs et une faible robustesse en cas de décalage de distribution. L’apprentissage par renforcement (RL) peut atténuer ces problèmes, mais exige généralement des interactions coûteuses dans le monde réel ou souffre d’un écart entre simulation et réalité (sim-to-real). Nous introduisons VLA-RFT, un cadre d’ajustement fin par renforcement qui exploite un modèle du monde fondé sur les données comme simulateur contrôlable. Entraîné à partir de données d’interactions réelles, ce simulateur prédit les observations visuelles futures conditionnellement aux actions, permettant ainsi des tirages de politiques (policy rollouts) accompagnés de récompenses denses et de niveau trajectoire, dérivées de références liées à l’atteinte d’un objectif. Ce design fournit un signal d’apprentissage efficace et aligné sur les actions, réduisant drastiquement les besoins en échantillons. En moins de 400 étapes d’ajustement fin, VLA-RFT dépasse les performances des baselines supervisées fortes et atteint une efficacité supérieure à celle du RL basé sur simulateur. De plus, il démontre une robustesse remarquable en conditions perturbées, assurant une exécution stable des tâches. Nos résultats établissent le cadre d’ajustement fin par renforcement basé sur un modèle du monde comme une approche pratique de post-entraînement pour améliorer la généralisation et la robustesse des modèles VLA. Pour plus de détails, veuillez consulter https://vla-rft.github.io/.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux

Hengtao Li Pengxiang Ding Runze Suo Yihao Wang Zirui Ge Dongyuan Zang Kexian Yu Mingyang Sun Hongyin Zhang Donglin Wang1 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Hengtao Li Pengxiang Ding Runze Suo Yihao Wang Zirui Ge Dongyuan Zang Kexian Yu Mingyang Sun Hongyin Zhang Donglin Wang