HyperAIHyperAI

Command Palette

Search for a command to run...

VLA-RFT : Affinage par renforcement vision-langage-action avec récompenses vérifiées dans des simulateurs mondiaux

Résumé

Les modèles Vision-Language-Action (VLA) permettent la prise de décision incarnée, mais s’appuient fortement sur l’apprentissage par imitation, ce qui entraîne une accumulation d’erreurs et une faible robustesse en cas de décalage de distribution. L’apprentissage par renforcement (RL) peut atténuer ces problèmes, mais exige généralement des interactions coûteuses dans le monde réel ou souffre d’un écart entre simulation et réalité (sim-to-real). Nous introduisons VLA-RFT, un cadre d’ajustement fin par renforcement qui exploite un modèle du monde fondé sur les données comme simulateur contrôlable. Entraîné à partir de données d’interactions réelles, ce simulateur prédit les observations visuelles futures conditionnellement aux actions, permettant ainsi des tirages de politiques (policy rollouts) accompagnés de récompenses denses et de niveau trajectoire, dérivées de références liées à l’atteinte d’un objectif. Ce design fournit un signal d’apprentissage efficace et aligné sur les actions, réduisant drastiquement les besoins en échantillons. En moins de 400 étapes d’ajustement fin, VLA-RFT dépasse les performances des baselines supervisées fortes et atteint une efficacité supérieure à celle du RL basé sur simulateur. De plus, il démontre une robustesse remarquable en conditions perturbées, assurant une exécution stable des tâches. Nos résultats établissent le cadre d’ajustement fin par renforcement basé sur un modèle du monde comme une approche pratique de post-entraînement pour améliorer la généralisation et la robustesse des modèles VLA. Pour plus de détails, veuillez consulter https://vla-rft.github.io/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp