HyperAIHyperAI

Command Palette

Search for a command to run...

vid-TLDR: Trainingsfreie Token-Zusammenführung für leichte Video-Transformer

Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim

Zusammenfassung

Video-Transformers sind inzwischen die vorherrschende Lösung für verschiedene Video-Downstream-Aufgaben aufgrund ihrer überlegenen Ausdrucksstärke und Flexibilität. Allerdings leiden diese Video-Transformers unter hohen Rechenkosten, die durch die große Anzahl an Tokens über alle Videobilder hinweg verursacht werden, was den Haupthindernis bei der Modelltrainierung darstellt. Zudem verschlechtern die dem Hauptinhalt nicht zugehörigen Patches, wie etwa Hintergründe, die Generalisierungsleistung der Modelle. Um diese Probleme zu bewältigen, schlagen wir ein trainingsfreies Token-Merging für leichtgewichtige Video-Transformer (vid-TLDR) vor, das darauf abzielt, die Effizienz von Video-Transformern zu verbessern, indem es Hintergrundtokens zusammenführt, ohne zusätzliche Trainierung zu erfordern. Für vid-TLDR führen wir einen neuen Ansatz ein, um nur mit der Aufmerksamkeitskarte die auffälligen Bereiche in Videos zu erfassen. Des Weiteren stellen wir eine salienzbasierte Token-Merging-Strategie vor, bei der Hintergrundtokens entfernt und Objektwertungen geschärft werden. Unsere Experimente zeigen, dass vid-TLDR die rechnerische Komplexität von Video-Transformern erheblich reduziert und gleichzeitig eine wettbewerbsfähige Leistung im Vergleich zum Basismodell ohne vid-TLDR erzielt. Der Quellcode ist unter https://github.com/mlvlab/vid-TLDR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
vid-TLDR: Trainingsfreie Token-Zusammenführung für leichte Video-Transformer | Paper | HyperAI