Zeitkontrastive Netze: Selbstüberwachtes Lernen aus Videos

Wir schlagen einen selbstüberwachten Ansatz vor, um Darstellungen und robotersteuernde Verhaltensweisen ausschließlich aus unbeschrifteten Videos zu lernen, die von mehreren Perspektiven aufgezeichnet wurden. Wir untersuchen, wie diese Darstellung in zwei roboterimitierenden Szenarien eingesetzt werden kann: das Nachahmen von Objektinteraktionen aus Videos von Menschen und das Nachahmen menschlicher Körperhaltungen. Die Imitation menschlichen Verhaltens erfordert eine perspektivinvariante Darstellung, die die Beziehungen zwischen Endeffektoren (Händen oder Robotergreifern), der Umgebung, den Objekteigenschaften und der Körperform aufnimmt. Unsere Darstellungen werden unter Verwendung eines metrischen Lernverlustes trainiert, bei dem verschiedene gleichzeitige Perspektiven derselben Beobachtung im Einbettungsraum angezogen werden, während sie zeitliche Nachbarn abstoßen, die oft visuell ähnlich, aber funktional unterschiedlich sind. Mit anderen Worten lernt das Modell gleichzeitig, was zwischen verschiedenen Bildern gemeinsam ist, und was zwischen ähnlichen Bildern unterschiedlich ist. Dieses Signal veranlasst unser Modell, Attribute zu entdecken, die sich über die Perspektive hinweg nicht ändern, aber über die Zeit hinweg verändern, während es Störfaktoren wie Verschleierung, Bewegungsunschärfe, Beleuchtung und Hintergrund ignoriert. Wir zeigen, dass diese Darstellung von einem Roboter verwendet werden kann, um menschliche Körperhaltungen direkt ohne explizite Korrespondenz nachzuahmen und als Belohnungsfunktion innerhalb eines Reinforcement-Learning-Algorithmus eingesetzt werden kann. Obwohl Darstellungen aus einer unbeschrifteten Sammlung taskbezogener Videos gelernt werden, lernen Roboterverhaltensweisen wie Gießen durch das Betrachten einer einzelnen Drittperson-Demonstration durch einen Menschen. Belohnungsfunktionen, die durch das Folgen der menschlichen Demonstrationen unter der gelernten Darstellung erhalten werden, ermöglichen eine effiziente Reinforcement-Learning-Methode, die für reale Robotersysteme praktikabel ist. Videoergebnisse sowie quelloffener Code und Datensatz sind unter https://sermanet.github.io/imitate verfügbar.