SViTT: Zeitliches Lernen von dünn besetzten Video-Text-Transformern

Lernen Video-Text-Transformer zeitliche Beziehungen zwischen Frames zu modellieren? Trotz ihrer immensen Kapazität und der Fülle multimodaler Trainingsdaten haben jüngste Studien gezeigt, dass Video-Text-Modelle eine starke Neigung zu rahmenbasierten räumlichen Repräsentationen aufweisen, während zeitliches Schließen weitgehend ungelöst bleibt. In dieser Arbeit identifizieren wir mehrere zentrale Herausforderungen beim zeitlichen Lernen von Video-Text-Transformern: den räumlich-zeitlichen Kompromiss aufgrund der begrenzten Netzwerkgröße; das Fluch der Dimensionalität für die Modellierung mehrerer Frames; und die abnehmenden Erträge semantischer Informationen durch die Verlängerung der Clip-Länge. Auf Basis dieser Erkenntnisse schlagen wir SViTT vor, eine dünnbesetzte Video-Text-Architektur, die Multi-Frame-Schlussfolgerungen mit erheblich geringeren Kosten als naive Transformer mit dichter Aufmerksamkeit durchführt. Analog zu graphbasierten Netzen verwendet SViTT zwei Formen der Dünnbesetzung: Edge-Dünnbesetzung, die die Kommunikation zwischen Tokens im Selbstaufmerksamkeitsmechanismus einschränkt, und Node-Dünnbesetzung, die unwesentliche visuelle Tokens verwirft. Durch ein Curriculum, das die Dünnbesetzung des Modells mit zunehmender Clip-Länge erhöht, übertrifft SViTT dichte Transformer-Baselines bei mehreren Benchmarks für Video-Text-Retrieval und Fragebeantwortung, und zwar bei einem Bruchteil des Rechenaufwands. Projektseite: http://svcl.ucsd.edu/projects/svitt.