HyperAIHyperAI

Command Palette

Search for a command to run...

πRLπ_{\text{RL}}πRL : Affinage en ligne par apprentissage par renforcement pour les modèles vision-langage-action fondés sur les flux

Résumé

Les modèles Vision-Language-Action (VLA) permettent aux robots de comprendre et d’exécuter des tâches complexes à partir d’entrées multimodales. Bien que des travaux récents explorent l’utilisation de l’apprentissage par renforcement (RL) afin d’automatiser le processus fastidieux de collecte de données dans le cadre de l’ajustement fin supervisé à grande échelle (SFT), l’application du RL à grande échelle aux VLA basés sur les flux (par exemple, π0π_0π0, π0.5π_{0.5}π0.5) reste difficile en raison des log-vraisemblances d’action intractables issues du processus itératif de débruitage. Nous relevons ce défi grâce à πRLπ_{\text{RL}}πRL, un cadre open-source conçu pour former des VLA basés sur les flux dans des simulations parallèles. πRLπ_{\text{RL}}πRL implémente deux algorithmes de RL : (1) {Flow-Noise}, qui modélise le processus de débruitage comme un MDP à temps discret doté d’un réseau de bruit apprenable, permettant un calcul exact de la log-vraisemblance ; (2) {Flow-SDE}, qui intègre le débruitage à l’interaction agent-environnement, en formulant un MDP à deux couches et en utilisant une conversion ODE vers SDE pour une exploration efficace en RL. Nous évaluons πRLπ_{\text{RL}}πRL sur les benchmarks LIBERO et ManiSkill. Sur LIBERO, πRLπ_{\text{RL}}πRL améliore les modèles SFT à faible nombre d’exemples π0π_0π0 et π0.5π_{0.5}π0.5, passant respectivement de 57,6 % à 97,6 % et de 77,1 % à 98,3 %. Sur ManiSkill, nous entraînons πRLπ_{\text{RL}}πRL dans 320 environnements parallèles, améliorant π0π_0π0 de 41,6 % à 85,7 % et π0.5π_{0.5}π0.5 de 40,0 % à 84,8 % sur 4 352 tâches de ramassage et de placement, démontrant ainsi un RL multitâche évolutif dans des simulations hétérogènes. Dans l’ensemble, πRLπ_{\text{RL}}πRL obtient des gains significatifs en performance et une généralisation plus forte par rapport aux modèles SFT, validant l’efficacité du RL en ligne pour les VLA basés sur les flux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp