HyperAIHyperAI

Command Palette

Search for a command to run...

SViTT: Zeitliches Lernen von dünn besetzten Video-Text-Transformern

Yi Li Kyle Min Subarna Tripathi Nuno Vasconcelos

Zusammenfassung

Lernen Video-Text-Transformer zeitliche Beziehungen zwischen Frames zu modellieren? Trotz ihrer immensen Kapazität und der Fülle multimodaler Trainingsdaten haben jüngste Studien gezeigt, dass Video-Text-Modelle eine starke Neigung zu rahmenbasierten räumlichen Repräsentationen aufweisen, während zeitliches Schließen weitgehend ungelöst bleibt. In dieser Arbeit identifizieren wir mehrere zentrale Herausforderungen beim zeitlichen Lernen von Video-Text-Transformern: den räumlich-zeitlichen Kompromiss aufgrund der begrenzten Netzwerkgröße; das Fluch der Dimensionalität für die Modellierung mehrerer Frames; und die abnehmenden Erträge semantischer Informationen durch die Verlängerung der Clip-Länge. Auf Basis dieser Erkenntnisse schlagen wir SViTT vor, eine dünnbesetzte Video-Text-Architektur, die Multi-Frame-Schlussfolgerungen mit erheblich geringeren Kosten als naive Transformer mit dichter Aufmerksamkeit durchführt. Analog zu graphbasierten Netzen verwendet SViTT zwei Formen der Dünnbesetzung: Edge-Dünnbesetzung, die die Kommunikation zwischen Tokens im Selbstaufmerksamkeitsmechanismus einschränkt, und Node-Dünnbesetzung, die unwesentliche visuelle Tokens verwirft. Durch ein Curriculum, das die Dünnbesetzung des Modells mit zunehmender Clip-Länge erhöht, übertrifft SViTT dichte Transformer-Baselines bei mehreren Benchmarks für Video-Text-Retrieval und Fragebeantwortung, und zwar bei einem Bruchteil des Rechenaufwands. Projektseite: http://svcl.ucsd.edu/projects/svitt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp