HyperAIHyperAI

Command Palette

Search for a command to run...

TESTA: Temporale-Räumliche Token-Aggregation für die Verständnis von Langform-Videos und Sprache

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

Zusammenfassung

Großmaßstäbliche Video-Sprach-Vorabtrainings haben erhebliche Fortschritte bei der Verbesserung von Video-Sprach-Verständnis-Aufgaben gemacht. Dennoch bleibt die hohe Rechenleistung für die Video-Kodierung eine erhebliche Effizienzhemmung, insbesondere für längere Videos. Diese Videos enthalten aufgrund ihrer inhärenten dreidimensionalen Eigenschaften und räumlich-zeitlichen Redundanzen eine enorme Anzahl visueller Tokens, was es schwierig macht, komplexe zeitliche und räumliche Beziehungen zu erfassen. Um dieses Problem anzugehen, schlagen wir eine effiziente Methode vor, die Temporal-Spatial Token Aggregation (TESTA) genannt wird. TESTA kondensiert die Video-Semantik durch adaptive Aggregation ähnlicher Frames sowie ähnlicher Patches innerhalb jedes Frames. TESTA kann die Anzahl der visuellen Tokens um 75 % reduzieren und damit die Video-Kodierung beschleunigen. Aufbauend auf TESTA stellen wir ein vorab trainiertes Video-Sprach-Modell vor, das in jedem Video-Encoder-Block ein geteiltes Raum-Zeit-Token-Aggregationsmodul integriert. Wir evaluieren unser Modell auf fünf Datensätzen für Absatz-zu-Video-Retrieval und lange Formen des VideoQA-Tasks. Die experimentellen Ergebnisse zeigen, dass TESTA die Recheneffizienz um 1,7-fache verbessert und dank seiner Skalierbarkeit bei der Verarbeitung längerer Eingabe-Frames erhebliche Leistungssteigerungen erreicht, z.B. +13,7 R@1 auf QuerYD und +6,5 R@1 auf Condensed Movie.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp