HyperAIHyperAI

Command Palette

Search for a command to run...

Entmaske Lehrer: Auf dem Weg zu trainings-effizienten Video-Grundmodellen

Kunchang Li Yali Wang Yizhuo Li Yi Wang Yinan He Limin Wang Yu Qiao

Zusammenfassung

Video Foundation Models (VFMs) wurden bisher aufgrund hoher Rechenkosten und der Knappheit von Daten nur begrenzt erforscht. Frühere VFMs stützten sich auf Image Foundation Models (IFMs), die jedoch Schwierigkeiten bei der Übertragung in den Videobereich haben. Obwohl VideoMAE es geschafft hat, ein robustes ViT aus begrenzten Daten zu trainieren, führt dessen niedrigstufige Rekonstruktion zu Konvergenzproblemen und steht im Konflikt mit hochstufiger multimodaler Ausrichtung. In dieser Arbeit wird eine trainings-effiziente Methode für zeitempfindliche VFMs vorgeschlagen, die die Vorteile bestehender Methoden integriert. Um die Dateneffizienz zu erhöhen, maskieren wir den Großteil der videoinhalte mit geringem semantischen Gehalt, aber wählen gezielt die unmaskierten Token aus und alignieren diese mit dem IFM, das als UnMasked Teacher (UMT) dient. Durch das Bereitstellen semantischer Leitlinien ermöglicht unsere Methode eine schnellere Konvergenz und Multimodalität-freundlichkeit. Mit einem fortschreitenden Prätrainingsframework kann unser Modell verschiedene Aufgaben bewältigen, darunter szenenbezogene, zeitbezogene und komplexe videolinguistische Verständnisaufgaben. Unter Verwendung ausschließlich öffentlicher Quellen konnten wir unser von Grund auf neu erstelltes ViT-L/16-Modell in 6 Tagen auf 32 A100-GPUs bis zum Stand der Technik trainieren. Der Code und die Modelle werden unter https://github.com/OpenGVLab/unmasked_teacher veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp