Command Palette
Search for a command to run...
$π_{\text{RL}}$ : Affinage en ligne par apprentissage par renforcement pour les modèles vision-langage-action fondés sur les flux

Résumé
Les modèles Vision-Language-Action (VLA) permettent aux robots de comprendre et d’exécuter des tâches complexes à partir d’entrées multimodales. Bien que des travaux récents explorent l’utilisation de l’apprentissage par renforcement (RL) afin d’automatiser le processus fastidieux de collecte de données dans le cadre de l’ajustement fin supervisé à grande échelle (SFT), l’application du RL à grande échelle aux VLA basés sur les flux (par exemple, $π_0$, $π_{0.5}$) reste difficile en raison des log-vraisemblances d’action intractables issues du processus itératif de débruitage. Nous relevons ce défi grâce à $π_{\text{RL}}$, un cadre open-source conçu pour former des VLA basés sur les flux dans des simulations parallèles. $π_{\text{RL}}$ implémente deux algorithmes de RL : (1) {Flow-Noise}, qui modélise le processus de débruitage comme un MDP à temps discret doté d’un réseau de bruit apprenable, permettant un calcul exact de la log-vraisemblance ; (2) {Flow-SDE}, qui intègre le débruitage à l’interaction agent-environnement, en formulant un MDP à deux couches et en utilisant une conversion ODE vers SDE pour une exploration efficace en RL. Nous évaluons $π_{\text{RL}}$ sur les benchmarks LIBERO et ManiSkill. Sur LIBERO, $π_{\text{RL}}$ améliore les modèles SFT à faible nombre d’exemples $π_0$ et $π_{0.5}$, passant respectivement de 57,6 % à 97,6 % et de 77,1 % à 98,3 %. Sur ManiSkill, nous entraînons $π_{\text{RL}}$ dans 320 environnements parallèles, améliorant $π_0$ de 41,6 % à 85,7 % et $π_{0.5}$ de 40,0 % à 84,8 % sur 4 352 tâches de ramassage et de placement, démontrant ainsi un RL multitâche évolutif dans des simulations hétérogènes. Dans l’ensemble, $π_{\text{RL}}$ obtient des gains significatifs en performance et une généralisation plus forte par rapport aux modèles SFT, validant l’efficacité du RL en ligne pour les VLA basés sur les flux.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.