Réseaux Contrastifs Temporels : Apprentissage Auto-supervisé à partir de Vidéos

Nous proposons une approche auto-supervisée pour l'apprentissage de représentations et de comportements robotiques entièrement à partir de vidéos non étiquetées enregistrées sous plusieurs angles de vue, et nous étudions comment cette représentation peut être utilisée dans deux contextes d'imitation robotique : l'imitation des interactions avec des objets à partir de vidéos de personnes, et l'imitation des postures humaines. L'imitation du comportement humain nécessite une représentation invariante aux points de vue qui capture les relations entre les effecteurs terminaux (mains ou pinces robotiques), l'environnement, les attributs des objets et la posture corporelle. Nous formons nos représentations en utilisant une perte d'apprentissage métrique, où plusieurs vues simultanées de la même observation sont attirées dans l'espace d'embedding, tout en étant repoussées par les voisins temporels qui sont souvent visuellement similaires mais fonctionnellement différents. Autrement dit, le modèle apprend simultanément à reconnaître ce qui est commun entre des images différentes et ce qui est différent entre des images similaires. Ce signal permet à notre modèle de découvrir des attributs qui ne changent pas selon le point de vue, mais qui changent au fil du temps, tout en ignorant les variables parasites telles que les occultations, le flou de mouvement, l'éclairage et le fond. Nous démontrons que cette représentation peut être utilisée par un robot pour imiter directement les postures humaines sans correspondance explicite, et qu'elle peut servir de fonction de récompense au sein d'un algorithme d'apprentissage par renforcement. Bien que les représentations soient apprises à partir d'une collection non étiquetée de vidéos liées à la tâche, les comportements robotiques tels que le versement sont acquis en observant une seule démonstration en troisième personne réalisée par un humain. Les fonctions de récompense obtenues en suivant les démonstrations humaines sous la représentation apprise permettent un apprentissage par renforcement efficace et applicable aux systèmes robotiques réels. Les résultats vidéo, le code source open-source et le jeu de données sont disponibles sur https://sermanet.github.io/imitate.