vor 2 Monaten

TESTA: Temporale-Räumliche Token-Aggregation für die Verständnis von Langform-Videos und Sprache

Shuhuai Ren; Sishuo Chen; Shicheng Li; Xu Sun; Lu Hou

Abstract

Großmaßstäbliche Video-Sprach-Vorabtrainings haben erhebliche Fortschritte bei der Verbesserung von Video-Sprach-Verständnis-Aufgaben gemacht. Dennoch bleibt die hohe Rechenleistung für die Video-Kodierung eine erhebliche Effizienzhemmung, insbesondere für längere Videos. Diese Videos enthalten aufgrund ihrer inhärenten dreidimensionalen Eigenschaften und räumlich-zeitlichen Redundanzen eine enorme Anzahl visueller Tokens, was es schwierig macht, komplexe zeitliche und räumliche Beziehungen zu erfassen. Um dieses Problem anzugehen, schlagen wir eine effiziente Methode vor, die Temporal-Spatial Token Aggregation (TESTA) genannt wird. TESTA kondensiert die Video-Semantik durch adaptive Aggregation ähnlicher Frames sowie ähnlicher Patches innerhalb jedes Frames. TESTA kann die Anzahl der visuellen Tokens um 75 % reduzieren und damit die Video-Kodierung beschleunigen. Aufbauend auf TESTA stellen wir ein vorab trainiertes Video-Sprach-Modell vor, das in jedem Video-Encoder-Block ein geteiltes Raum-Zeit-Token-Aggregationsmodul integriert. Wir evaluieren unser Modell auf fünf Datensätzen für Absatz-zu-Video-Retrieval und lange Formen des VideoQA-Tasks. Die experimentellen Ergebnisse zeigen, dass TESTA die Recheneffizienz um 1,7-fache verbessert und dank seiner Skalierbarkeit bei der Verarbeitung längerer Eingabe-Frames erhebliche Leistungssteigerungen erreicht, z.B. +13,7 R@1 auf QuerYD und +6,5 R@1 auf Condensed Movie.