vor 2 Monaten

Entmaske Lehrer: Auf dem Weg zu trainings-effizienten Video-Grundmodellen

Kunchang Li; Yali Wang; Yizhuo Li; Yi Wang; Yinan He; Limin Wang; Yu Qiao

Abstract

Video Foundation Models (VFMs) wurden bisher aufgrund hoher Rechenkosten und der Knappheit von Daten nur begrenzt erforscht. Frühere VFMs stützten sich auf Image Foundation Models (IFMs), die jedoch Schwierigkeiten bei der Übertragung in den Videobereich haben. Obwohl VideoMAE es geschafft hat, ein robustes ViT aus begrenzten Daten zu trainieren, führt dessen niedrigstufige Rekonstruktion zu Konvergenzproblemen und steht im Konflikt mit hochstufiger multimodaler Ausrichtung. In dieser Arbeit wird eine trainings-effiziente Methode für zeitempfindliche VFMs vorgeschlagen, die die Vorteile bestehender Methoden integriert. Um die Dateneffizienz zu erhöhen, maskieren wir den Großteil der videoinhalte mit geringem semantischen Gehalt, aber wählen gezielt die unmaskierten Token aus und alignieren diese mit dem IFM, das als UnMasked Teacher (UMT) dient. Durch das Bereitstellen semantischer Leitlinien ermöglicht unsere Methode eine schnellere Konvergenz und Multimodalität-freundlichkeit. Mit einem fortschreitenden Prätrainingsframework kann unser Modell verschiedene Aufgaben bewältigen, darunter szenenbezogene, zeitbezogene und komplexe videolinguistische Verständnisaufgaben. Unter Verwendung ausschließlich öffentlicher Quellen konnten wir unser von Grund auf neu erstelltes ViT-L/16-Modell in 6 Tagen auf 32 A100-GPUs bis zum Stand der Technik trainieren. Der Code und die Modelle werden unter https://github.com/OpenGVLab/unmasked_teacher veröffentlicht.