vor 2 Monaten

vid-TLDR: Trainingsfreie Token-Zusammenführung für leichte Video-Transformer

Joonmyung Choi; Sanghyeok Lee; Jaewon Chu; Minhyuk Choi; Hyunwoo J. Kim

Abstract

Video-Transformers sind inzwischen die vorherrschende Lösung für verschiedene Video-Downstream-Aufgaben aufgrund ihrer überlegenen Ausdrucksstärke und Flexibilität. Allerdings leiden diese Video-Transformers unter hohen Rechenkosten, die durch die große Anzahl an Tokens über alle Videobilder hinweg verursacht werden, was den Haupthindernis bei der Modelltrainierung darstellt. Zudem verschlechtern die dem Hauptinhalt nicht zugehörigen Patches, wie etwa Hintergründe, die Generalisierungsleistung der Modelle. Um diese Probleme zu bewältigen, schlagen wir ein trainingsfreies Token-Merging für leichtgewichtige Video-Transformer (vid-TLDR) vor, das darauf abzielt, die Effizienz von Video-Transformern zu verbessern, indem es Hintergrundtokens zusammenführt, ohne zusätzliche Trainierung zu erfordern. Für vid-TLDR führen wir einen neuen Ansatz ein, um nur mit der Aufmerksamkeitskarte die auffälligen Bereiche in Videos zu erfassen. Des Weiteren stellen wir eine salienzbasierte Token-Merging-Strategie vor, bei der Hintergrundtokens entfernt und Objektwertungen geschärft werden. Unsere Experimente zeigen, dass vid-TLDR die rechnerische Komplexität von Video-Transformern erheblich reduziert und gleichzeitig eine wettbewerbsfähige Leistung im Vergleich zum Basismodell ohne vid-TLDR erzielt. Der Quellcode ist unter https://github.com/mlvlab/vid-TLDR verfügbar.