RT-1 : Transformer robotique pour le contrôle en milieu réel à grande échelle

En transférant des connaissances issues de grands ensembles de données diversifiés et indépendants des tâches, les modèles d’apprentissage automatique modernes peuvent résoudre des tâches spécifiques en aval soit de manière zéro-shot, soit avec de petits ensembles de données spécifiques à la tâche, tout en atteignant un haut niveau de performance. Bien que cette capacité ait été démontrée dans d’autres domaines tels que la vision par ordinateur, le traitement du langage naturel ou la reconnaissance vocale, elle reste à prouver dans le domaine de la robotique, où les capacités de généralisation des modèles sont particulièrement cruciales en raison de la difficulté d’acquisition de données réelles provenant de robots opérant dans des environnements du monde réel. Nous soutenons que l’une des clés du succès de tels modèles robotiques généralistes réside dans une formation ouverte et indépendante des tâches, combinée à des architectures à haute capacité capables d’intégrer l’ensemble de la diversité des données robotiques. Dans cet article, nous présentons une classe de modèles, baptisée Robotics Transformer, qui exhibe des propriétés prometteuses de scalabilité. Nous validons nos conclusions à travers une étude comparative de différentes classes de modèles et de leur capacité à généraliser en fonction de la taille des données, de la taille du modèle et de la diversité des données, fondée sur une collecte de données à grande échelle réalisée sur des robots réels accomplissant des tâches du monde réel. Le site web du projet et des vidéos sont disponibles à l’adresse robotics-transformer1.github.io.