vor 7 Tagen

Eine empirische Studie zu End-to-End Video-Sprache-Transformern mit maskierter visueller Modellierung

Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

Abstract

Masked Visual Modeling (MVM) hat sich kürzlich als wirksam für die visuelle Vortrainierung erwiesen. Obwohl ähnliche rekonstruktive Ziele für Videoeingaben (z. B. masked frame modeling) in der Video-Sprache (VidL)-Vortrainierung untersucht wurden, gelang es früheren Studien nicht, eine wirklich effektive MVM-Strategie zu finden, die die Leistung in nachgeschalteten Aufgaben erheblich verbessert. In dieser Arbeit untersuchen wir systematisch das Potenzial von MVM im Kontext der VidL-Lernprozesse. Konkret basieren wir unsere Studie auf einem vollständig end-to-end VIdeO-LanguagE Transformer (VIOLET), bei dem die Supervision aus dem MVM-Training rückwärts auf den Pixelraum des Videos propagiert werden kann. Insgesamt werden acht verschiedene rekonstruktive Ziele des MVM untersucht, reichend von niedrigstufigen Pixelwerten und orientierten Gradienten bis hin zu hochstufigen Tiefenkarten, optischem Fluss, diskreten visuellen Tokens und latenten visuellen Merkmalen. Wir führen umfassende Experimente durch und liefern Erkenntnisse zu den Faktoren, die eine effektive MVM-Trainingsstrategie ermöglichen, was zu einem verbesserten Modell, VIOLETv2, führt. Empirisch zeigen wir, dass VIOLETv2, das mit dem MVM-Ziel vortrainiert wurde, signifikante Leistungssteigerungen auf 13 VidL-Benchmarks erzielt – von der Video-Fragebeantwortung und Video-Kommentierung bis hin zur Text-zu-Video-Abfrage.