Maskierte Video-Distillation: Neubetrachtung des maskierten Merkmalsmodells für das selbstüberwachte Lernen von Video-Darstellungen

Dank des maskierten visuellen Modellierens haben selbstüberwachte Video-Darstellungslernverfahren erhebliche Fortschritte gemacht. Bestehende Methoden konzentrieren sich jedoch auf das Lernen von Darstellungen aus dem Grundriss durch die Rekonstruktion niedriger Level-Funktionen wie der rohen Pixel-RGB-Werte. In dieser Arbeit schlagen wir maskierte Video-Distillation (MVD), einen einfachen aber effektiven zweistufigen maskierten Funktionsmodellierungsrahmen für Video-Darstellungslernen vor: Zunächst trainieren wir ein Bild- (oder Video-) Modell, indem wir die niedrigen Level-Funktionen maskierter Bereiche wiederherstellen, danach verwenden wir die resultierenden Funktionen als Ziele für die maskierte Funktionsmodellierung. Bei der Auswahl der Lehrmodelle beobachten wir, dass Schüler, die von Videolehrern unterrichtet werden, bei zeitlich anspruchsvollen Videoaufgaben besser abschneiden, während Bildlehrer stärkere räumliche Darstellungen für räumlich anspruchsvolle Videoaufgaben übertragen. Eine Visualisierungsanalyse zeigt auch an, dass verschiedene Lehrer unterschiedliche gelernte Muster für Schüler produzieren. Angeregt durch diese Beobachtung entwickeln wir eine räumlich-zeitliche Co-Lehre-Methode für MVD. Speziell destillieren wir Schülermodelle sowohl aus Videolehrern als auch aus Bildlehrern durch maskierte Funktionsmodellierung. Umfangreiche experimentelle Ergebnisse zeigen, dass videobasierte Transformer, die mit der räumlich-zeitlichen Co-Lehre vortrainiert wurden, in einer Vielzahl von Videodatensätzen bessere Leistungen erzielen als Modelle, die durch ein einzelnes Lehrmodell destilliert wurden. Unser MVD mit dem Standard-ViT erreicht den aktuellen Stand der Technik im Vergleich zu früheren überwachten oder selbstüberwachten Methoden bei mehreren anspruchsvollen nachgelagerten Videoaufgaben. Zum Beispiel erreicht unser MVD mit dem ViT-Large-Modell 86,4 % und 76,7 % Top-1-Akkuranz auf Kinetics-400 und Something-Something-v2, was jeweils um 1,2 % und 2,4 % besser ist als VideoMAE. Wenn ein größeres ViT-Huge-Modell eingesetzt wird, erreicht MVD den aktuellen Stand der Technik mit 77,3 % Top-1-Akkuranz auf Something-Something-v2 und 41,1 mAP auf AVA v2.2. Der Code wird unter \url{https://github.com/ruiwang2021/mvd} zur Verfügung gestellt.注:在德语中,“vanilla”通常用于描述未添加任何额外功能的基本版本,因此在这里保留了“vanilla ViT”的表述。此外,为了保持专业性和准确性,一些专有名词如“Kinetics-400”,“Something-Something-v2”,“VideoMAE”和“AVA v2.2”也直接采用了原文的形式。