RSPNet: Relative Geschwindigkeitswahrnehmung für das unüberwachte Lernen von Video-Darstellungen

Wir untersuchen das unüberwachte Lernen von Video-Darstellungen, das versucht, sowohl Bewegungs- als auch Erscheinungsmerkmale aus nicht gekennzeichneten Videos zu erlernen, die für nachgelagerte Aufgaben wie die Aktionserkennung wiederverwendet werden können. Diese Aufgabe ist jedoch äußerst herausfordernd aufgrund 1) der hochkomplexen räumlich-zeitlichen Informationen in Videos und 2) des Mangels an gekennzeichneten Daten für das Training. Im Gegensatz zum Darstellungslearning für statische Bilder ist es schwierig, eine geeignete selbstüberwachte Aufgabe zu konstruieren, die sowohl Bewegungs- als auch Erscheinungsmerkmale gut modelliert. In jüngerer Zeit wurden mehrere Versuche unternommen, Video-Darstellungen durch die Vorhersage der Wiedergabegeschwindigkeit zu erlernen. Es ist jedoch nicht trivial, präzise Geschwindigkeitslabels für die Videos zu erhalten. Kritischer noch ist, dass die gelernten Modelle tendenziell auf Bewegungsmuster fokussieren und daher möglicherweise Erscheinungsmerkmale nicht gut erlernen. In dieser Arbeit beobachten wir, dass die relative Wiedergabegeschwindigkeit konsistenter mit dem Bewegungsmuster ist und daher eine effektivere und stabilere Überwachung für das Darstellungslearning bietet. Daher schlagen wir einen neuen Ansatz vor, um die Wiedergabegeschwindigkeit wahrzunehmen und nutzen die relative Geschwindigkeit zwischen zwei Videosequenzen als Labels. Auf diese Weise können wir die Geschwindigkeit besser wahrnehmen und bessere Bewegungsmerkmale erlernen. Zudem, um das Lernen von Erscheinungsmerkmalen sicherzustellen, schlagen wir eine Erscheinungsfokus-Aufgabe vor, bei der wir das Modell dazu zwingen, den Unterschied im Erscheinungsbild zwischen zwei Videosequenzen wahrzunehmen. Wir zeigen, dass die gemeinsame Optimierung der beiden Aufgaben konsistent die Leistung bei zwei nachgelagerten Aufgaben verbessert: Aktionserkennung und Video-Retrieval. Bemerkenswerterweise erreichen wir bei der Aktionserkennung auf dem UCF101-Datensatz ohne Verwendung von gekennzeichneten Daten zur Vortraining eine Genauigkeit von 93,7 %, was das ImageNet überwachte Vortraining-Modell übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/PeihaoChen/RSPNet verfügbar.