HyperAIHyperAI

Command Palette

Search for a command to run...

VIMPAC: Video-Vortrainierung mittels maskierter Token-Vorhersage und kontrastiver Lernung

Hao Tan Jie Lei Thomas Wolf Mohit Bansal

Zusammenfassung

Die Videoverstehensfähigkeit beruht auf der Wahrnehmung des globalen Inhalts und der Modellierung seiner internen Zusammenhänge (z. B. Kausalität, Bewegung und raumzeitliche Korrespondenz). Um diese Wechselwirkungen zu lernen, wenden wir eine Mask-then-Predict-Vorstudieraufgabe auf diskretisierte Videotokens an, die mittels VQ-VAE generiert wurden. Im Gegensatz zur Sprache, bei der Texttokens eher unabhängig sind, weisen benachbarte Videotokens typischerweise starke Korrelationen auf (z. B. folgende Videoframes ähneln sich oft stark), weshalb die einheitliche Maskierung einzelner Tokens die Aufgabe zu trivial machen und somit nützliche Repräsentationen erschweren würde. Um dieses Problem zu bewältigen, schlagen wir eine blockweise Maskierungsstrategie vor, bei der benachbarte Videotokens sowohl im räumlichen als auch im zeitlichen Bereich maskiert werden. Zudem integrieren wir eine kontrastive Lernmethode ohne Daten-Augmentation, um den globalen Inhalt weiter zu erfassen, indem wir vorhersagen, ob Videoclips aus demselben Video stammen. Wir trainieren unser Modell auf unstrukturierten Videos und zeigen, dass das vortrainierte Modell auf mehreren Videoverstehens-Datensätzen (z. B. SSV2, Diving48) Ergebnisse auf State-of-the-Art-Niveau erzielt. Schließlich liefern wir detaillierte Analysen zur Skalierbarkeit des Modells und zur Gestaltung der Vorstudiermethode. Der Quellcode ist unter https://github.com/airsplay/vimpac verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VIMPAC: Video-Vortrainierung mittels maskierter Token-Vorhersage und kontrastiver Lernung | Paper | HyperAI