Erweitern Sie Ihre Perspektiven für das selbstüberwachte Video-Lernen

Die meisten erfolgreichen selbstüberwachten Lernmethoden werden trainiert, die Darstellungen von zwei unabhängigen Ansichten der Daten auszurichten. Die neuesten Methoden im Videobereich sind von Bildtechniken inspiriert, bei denen diese beiden Ansichten durch Zuschneiden und Erweitern des resultierenden Ausschnitts ähnlich extrahiert werden. Allerdings fehlt diesen Methoden ein entscheidendes Element im Video-Bereich: die Zeit. Wir stellen BraVe vor, einen Rahmen für das selbstüberwachte Lernen in Videos. In BraVe hat eine der Ansichten Zugang zu einem engen zeitlichen Fenster des Videos, während die andere Ansicht umfassenden Zugang zum Videoinhalt hat. Unsere Modelle lernen, von der engen Ansicht auf den allgemeinen Inhalt des Videos zu verallgemeinern. Darüber hinaus verarbeitet BraVe die Ansichten mit unterschiedlichen Backbones, was es ermöglicht, alternative Erweiterungen oder Modalitäten in die breite Ansicht einzubinden, wie z.B. optischen Fluss, zufällig konvolvierte RGB-Bilder, Audio oder deren Kombinationen (optical flow, randomly convolved RGB frames). Wir zeigen, dass BraVe auf Standard-Benchmarks für Videoklassifikation und Audioklassifikation wie UCF101, HMDB51, Kinetics, ESC-50 und AudioSet erstklassige Ergebnisse im Bereich des selbstüberwachten Repräsentationslernens erzielt.