OpenVLA : un modèle open-source vision-langage-action

Les grands modèles préentraînés sur une combinaison de données vision-langage à l’échelle d’Internet et de démonstrations robotiques diversifiées ont le potentiel de transformer la manière dont nous enseignons de nouvelles compétences aux robots : au lieu de former de nouvelles comportements depuis zéro, nous pouvons affiner ces modèles vision-langage-action (VLA) pour obtenir des politiques robustes et généralisables pour le contrôle visuomoteur. Toutefois, l’adoption généralisée des VLA en robotique s’avère difficile en raison de deux principaux obstacles : 1) les VLA existants sont largement fermés et inaccessibles au public, et 2) les travaux antérieurs n’ont pas exploré de méthodes efficaces pour affiner ces modèles sur de nouvelles tâches, un élément clé pour leur adoption. Face à ces défis, nous introduisons OpenVLA, un modèle VLA open-source de 7 milliards de paramètres, entraîné sur une collection diversifiée de 970 000 démonstrations robotiques réelles. OpenVLA repose sur un modèle linguistique Llama 2 combiné à un encodeur visuel qui fusionne des caractéristiques préentraînées provenant de DINOv2 et de SigLIP. Grâce à la diversité accrue des données et à de nouveaux composants de modèle, OpenVLA obtient des résultats remarquables en manipulation généraliste, surpassant les modèles fermés tels que RT-2-X (55 milliards de paramètres) de 16,5 points de pourcentage en taux absolu de réussite sur 29 tâches et plusieurs incarnations robotiques, tout en utilisant 7 fois moins de paramètres. Nous montrons également qu’il est possible d’affiner efficacement OpenVLA pour de nouveaux environnements, avec des résultats particulièrement solides en généralisation dans des environnements multi-tâches impliquant plusieurs objets, ainsi qu’une forte capacité d’ancrage linguistique, dépassant même des méthodes d’apprentissage par imitation depuis zéro, telles que Diffusion Policy, de 20,4 points de pourcentage. Nous explorons également l’efficacité en ressources informatiques : comme contribution complémentaire, nous démontrons qu’OpenVLA peut être affiné sur des cartes graphiques grand public grâce à des méthodes modernes d’adaptation de rang faible, et servi efficacement via une quantification sans perte de performance sur les tâches finales. Enfin, nous mettons à disposition des points de contrôle du modèle, des notebooks d’affinage, ainsi que notre codebase PyTorch, incluant un support intégré pour l’entraînement à grande échelle de VLA sur les jeux de données Open X-Embodiment.