Apprentissage non supervisé pour l'interaction physique par la prédiction vidéo

Un défi central pour un agent apprenant à interagir avec le monde est de prédire comment ses actions influencent les objets dans son environnement. De nombreuses méthodes existantes pour l'apprentissage des dynamiques des interactions physiques nécessitent des informations d'objets étiquetées. Cependant, pour élargir l'apprentissage des interactions réelles à diverses scènes et objets, l'acquisition de données étiquetées devient de plus en plus irréaliste. Pour apprendre le mouvement des objets physiques sans étiquettes, nous avons développé un modèle de prédiction vidéo conditionné par l'action qui modélise explicitement le mouvement des pixels, en prédissant une distribution du mouvement des pixels à partir des frames précédentes. Comme notre modèle prévoit explicitement le mouvement, il est partiellement invariant à l'apparence des objets, ce qui lui permet de généraliser aux objets jamais vus auparavant. Pour explorer la prédiction vidéo pour les agents interactifs du monde réel, nous introduisons également un ensemble de données comprenant 59 000 interactions robotiques impliquant des mouvements de poussée, y compris un ensemble de test avec des objets inédits. Dans cet ensemble de données, une prédiction précise des vidéos conditionnées par les actions futures du robot revient à apprendre une « imagination visuelle » de différents futurs basés sur différentes séquences d'actions. Nos expériences montrent que notre méthode proposée produit des prédictions vidéo plus précises, tant quantitativement que qualitativement, lorsqu'elle est comparée aux méthodes antérieures.