VideoMAE V2: Skalierung von Video-Maskierten Autoencodern durch Doppeltes Maskieren

Die Skalierung ist der wichtigste Faktor für die Erstellung eines leistungsfähigen Grundmodells, das sich gut auf eine Vielzahl von Downstream-Aufgaben verallgemeinern lässt. Dennoch stellt die Schulung von Video-Grundmodellen mit Milliarden von Parametern weiterhin eine Herausforderung dar. Dieses Papier zeigt, dass der Video-Masked Autoencoder (VideoMAE) ein skalierbares und allgemeines selbstüberwachtes Vor-Schulungsverfahren für die Erstellung von Video-Grundmodellen ist. Wir skalieren den VideoMAE sowohl im Modell als auch in den Daten durch ein zentrales Design. Insbesondere präsentieren wir eine Doppelmasking-Strategie für effizientes Vor-Schulung, bei der ein Encoder auf einem Teilbereich von Videotoken operiert und ein Decoder einen anderen Teilbereich von Videotoken verarbeitet. Obwohl der VideoMAE aufgrund des hohen Maskierungsverhältnisses im Encoder sehr effizient ist, kann das Maskieren des Decoders den Gesamtrechenaufwand noch weiter reduzieren. Dies ermöglicht die effiziente Vor-Schulung von Modellen mit Milliardenparametern im Video-Bereich. Zudem verwenden wir ein fortschreitendes Trainingsparadigma, das eine anfängliche Vor-Schulung auf einem vielfältigen, mehrquelligen nicht gekennzeichneten Datensatz umfasst, gefolgt von einer Nach-Vor-Schulung auf einem gemischten gekennzeichneten Datensatz. Schließlich gelingt es uns, ein Video-ViT-Modell mit einer Milliarde Parameter zu schulen, das neue Top-Leistungen auf den Datensätzen Kinetics (90,0 % auf K400 und 89,9 % auf K600) und Something-Something (68,7 % auf V1 und 77,0 % auf V2) erzielt. Darüber hinaus überprüfen wir die vorgeschulten Video-ViT-Modelle ausgiebig an verschiedenen Downstream-Aufgaben und zeigen so ihre Effektivität als allgemeiner Lernalgorithmus für Videodarstellungen. Der Code und das Modell sind unter \url{https://github.com/OpenGVLab/VideoMAEv2} verfügbar.