HyperAIHyperAI

Command Palette

Search for a command to run...

VideoMAE V2: Skalierung von Video-Maskierten Autoencodern durch Doppeltes Maskieren

Wang Limin ; Huang Bingkun ; Zhao Zhiyu ; Tong Zhan ; He Yinan ; Wang Yi ; Wang Yali ; Qiao Yu

Zusammenfassung

Die Skalierung ist der wichtigste Faktor für die Erstellung eines leistungsfähigen Grundmodells, das sich gut auf eine Vielzahl von Downstream-Aufgaben verallgemeinern lässt. Dennoch stellt die Schulung von Video-Grundmodellen mit Milliarden von Parametern weiterhin eine Herausforderung dar. Dieses Papier zeigt, dass der Video-Masked Autoencoder (VideoMAE) ein skalierbares und allgemeines selbstüberwachtes Vor-Schulungsverfahren für die Erstellung von Video-Grundmodellen ist. Wir skalieren den VideoMAE sowohl im Modell als auch in den Daten durch ein zentrales Design. Insbesondere präsentieren wir eine Doppelmasking-Strategie für effizientes Vor-Schulung, bei der ein Encoder auf einem Teilbereich von Videotoken operiert und ein Decoder einen anderen Teilbereich von Videotoken verarbeitet. Obwohl der VideoMAE aufgrund des hohen Maskierungsverhältnisses im Encoder sehr effizient ist, kann das Maskieren des Decoders den Gesamtrechenaufwand noch weiter reduzieren. Dies ermöglicht die effiziente Vor-Schulung von Modellen mit Milliardenparametern im Video-Bereich. Zudem verwenden wir ein fortschreitendes Trainingsparadigma, das eine anfängliche Vor-Schulung auf einem vielfältigen, mehrquelligen nicht gekennzeichneten Datensatz umfasst, gefolgt von einer Nach-Vor-Schulung auf einem gemischten gekennzeichneten Datensatz. Schließlich gelingt es uns, ein Video-ViT-Modell mit einer Milliarde Parameter zu schulen, das neue Top-Leistungen auf den Datensätzen Kinetics (90,0 % auf K400 und 89,9 % auf K600) und Something-Something (68,7 % auf V1 und 77,0 % auf V2) erzielt. Darüber hinaus überprüfen wir die vorgeschulten Video-ViT-Modelle ausgiebig an verschiedenen Downstream-Aufgaben und zeigen so ihre Effektivität als allgemeiner Lernalgorithmus für Videodarstellungen. Der Code und das Modell sind unter \url{https://github.com/OpenGVLab/VideoMAEv2} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp