Command Palette
Search for a command to run...
Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action
Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

Résumé
Les modèles Vision-Language-Action (VLA) adapte des modèles pré-entraînés de grande taille, basés sur la vision et le langage, afin de mapper des images et des instructions à des actions robotiques. Toutefois, les décodeurs VLA actuels génèrent soit les actions de manière autoregressive selon un ordre fixe de gauche à droite, soit ajoutent des têtes continues basées sur la diffusion ou le matching de flux en dehors du modèle principal, ce qui nécessite un entraînement spécialisé et un échantillonnage itératif, entravant ainsi la conception d’une architecture unifiée et évolutif. Nous proposons Discrete Diffusion VLA, une politique unique basée sur un transformateur qui modélise des segments d’actions discrétisés à l’aide d’une diffusion discrète et est entraînée avec la même fonction d’objectif par entropie croisée que le modèle principal VLM. Ce design conserve le paradigme de raffinement progressif de la diffusion tout en restant nativement compatible avec l’interface de jetons discrets des modèles VLM. Notre méthode permet un ordre de décodage adaptatif, en traitant d’abord les éléments d’action faciles avant les plus difficiles, et utilise un remasquage secondaire pour revisiter les prédictions incertaines au cours des différentes itérations de raffinement, ce qui améliore la cohérence et permet une correction robuste des erreurs. Ce décodeur unifié préserve les connaissances pré-entraînées des modèles vision-langage, supporte le décodage parallèle, surmonte le goulot d’étranglement autoregressif et réduit le nombre d’évaluations de fonction. Discrete Diffusion VLA atteint un taux de succès moyen de 96,3 % sur LIBERO, 71,2 % de correspondance visuelle sur SimplerEnv Fractal et 49,3 % en global sur SimplerEnv Bridge, surpassant à la fois les méthodes de référence autoregressives et continues basées sur la diffusion. Ces résultats montrent que le décodeur d’actions à diffusion discrète permet une modélisation précise des actions et un entraînement cohérent, posant ainsi les fondations pour l’évolutivité des modèles VLA vers des architectures et des jeux de données de plus grande taille.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.