RT-2 : Modèles Vision-Language-Action pour transférer les connaissances du web au contrôle robotique

Nous étudions la manière dont les modèles vision-langage entraînés sur des données à l’échelle d’Internet peuvent être intégrés directement dans un contrôle robotique end-to-end afin d’améliorer la généralisation et de permettre l’émergence de raisonnements sémantiques. Notre objectif est de permettre à un seul modèle entraîné de manière end-to-end d’apprendre à mapper les observations robotiques en actions, tout en bénéficiant des avantages de l’entraînement préalable à grande échelle sur des données linguistiques et vision-langage issues du web. À cette fin, nous proposons de faire une co-affinage des meilleurs modèles vision-langage sur des données de trajectoires robotiques ainsi que sur des tâches vision-langage à l’échelle d’Internet, telles que la réponse à des questions visuelles. Contrairement à d’autres approches, nous proposons une recette simple et générale pour atteindre cet objectif : afin d’adapter à la fois les réponses en langage naturel et les actions robotiques à la même représentation, nous exprimons les actions sous forme de jetons textuels et les intégrons directement dans l’ensemble d’entraînement du modèle, de la même manière que les jetons linguistiques. Nous désignons cette catégorie de modèles comme modèles vision-langage-action (VLA), et présentons une instance de tel modèle, que nous appelons RT-2. Notre évaluation approfondie (6 000 essais d’évaluation) montre que notre approche conduit à des politiques robotiques performantes et permet à RT-2 d’acquérir une gamme de capacités émergentes issues de l’entraînement à l’échelle d’Internet. Cela inclut une amélioration significative de la généralisation aux objets nouveaux, la capacité à interpréter des commandes absentes des données d’entraînement robotique (par exemple, placer un objet sur un chiffre ou une icône spécifique), ainsi que la capacité à effectuer un raisonnement élémentaire en réponse à des commandes utilisateur (par exemple, choisir l’objet le plus petit ou le plus grand, ou celui qui se trouve le plus près d’un autre objet). Nous montrons également que l’intégration du raisonnement en chaîne de pensée permet à RT-2 de réaliser un raisonnement sémantique multi-étapes, par exemple déterminer quel objet choisir pour servir d’outil improvisé (comme une pierre servant de marteau), ou quel type de boisson convient le mieux à une personne fatiguée (une boisson énergisante).