VIMPAC: Video-Vortrainierung mittels maskierter Token-Vorhersage und kontrastiver Lernung

Die Videoverstehensfähigkeit beruht auf der Wahrnehmung des globalen Inhalts und der Modellierung seiner internen Zusammenhänge (z. B. Kausalität, Bewegung und raumzeitliche Korrespondenz). Um diese Wechselwirkungen zu lernen, wenden wir eine Mask-then-Predict-Vorstudieraufgabe auf diskretisierte Videotokens an, die mittels VQ-VAE generiert wurden. Im Gegensatz zur Sprache, bei der Texttokens eher unabhängig sind, weisen benachbarte Videotokens typischerweise starke Korrelationen auf (z. B. folgende Videoframes ähneln sich oft stark), weshalb die einheitliche Maskierung einzelner Tokens die Aufgabe zu trivial machen und somit nützliche Repräsentationen erschweren würde. Um dieses Problem zu bewältigen, schlagen wir eine blockweise Maskierungsstrategie vor, bei der benachbarte Videotokens sowohl im räumlichen als auch im zeitlichen Bereich maskiert werden. Zudem integrieren wir eine kontrastive Lernmethode ohne Daten-Augmentation, um den globalen Inhalt weiter zu erfassen, indem wir vorhersagen, ob Videoclips aus demselben Video stammen. Wir trainieren unser Modell auf unstrukturierten Videos und zeigen, dass das vortrainierte Modell auf mehreren Videoverstehens-Datensätzen (z. B. SSV2, Diving48) Ergebnisse auf State-of-the-Art-Niveau erzielt. Schließlich liefern wir detaillierte Analysen zur Skalierbarkeit des Modells und zur Gestaltung der Vorstudiermethode. Der Quellcode ist unter https://github.com/airsplay/vimpac verfügbar.