HyperAIHyperAI
vor 2 Monaten

Selektive Strukturierte Zustandsräume für die Analyse langer Videos

Jue Wang; Wentao Zhu; Pichao Wang; Xiang Yu; Linda Liu; Mohamed Omar; Raffay Hamid
Selektive Strukturierte Zustandsräume für die Analyse langer Videos
Abstract

Die effektive Modellierung komplexer räumlich-zeitlicher Abhängigkeiten in langen Videos bleibt ein offenes Problem. Das kürzlich vorgeschlagene Strukturierte Zustandsraumsequenzmodell (S4) mit seiner linearen Komplexität bietet eine vielversprechende Richtung in diesem Bereich. Wir zeigen jedoch, dass die Gleichbehandlung aller Bildtokens, wie sie im S4-Modell durchgeführt wird, seine Effizienz und Genauigkeit nachteilig beeinflussen kann. Um diese Einschränkung zu überwinden, präsentieren wir ein neues selektives S4-Modell (d.h., S5-Modell), das einen leichten Maskengenerator verwendet, um informierende Bildtokens adaptiv auszuwählen. Dies führt zu einer effizienteren und genauereren Modellierung langfristiger räumlich-zeitlicher Abhängigkeiten in Videos. Im Gegensatz zu früheren maskenbasierten Tokenreduktionsmethoden, die in Transformers verwendet wurden, vermeidet unser S5-Modell die dichte Selbst-Aufmerksamkeitsberechnung durch die Nutzung der Anleitung des momentum-gespeisten S4-Modells. Dies ermöglicht es unserem Modell, weniger informative Tokens effizient zu entfernen und sich besser an verschiedene Aufgaben zur Verarbeitung langer Videos anzupassen. Allerdings können, wie bei den meisten Tokenreduktionsmethoden, informierende Bildtokens falsch gelöscht werden. Um die Robustheit und den zeitlichen Horizont unseres Modells zu verbessern, schlagen wir einen neuen Ansatz des lang-fristigen und kurz-fristigen maskierten kontrastiven Lernens (LSMCL) vor, der es unserem Modell ermöglicht, längere zeitliche Kontexte mit kürzeren Eingabevideos vorherzusagen. Wir präsentieren umfangreiche vergleichende Ergebnisse unter Verwendung von drei anspruchsvollen Datensätzen für die Verarbeitung langer Videos (LVU, COIN und Breakfast), die zeigen, dass unser Ansatz die bisherige Spitzenleistung des S4-Modells um bis zu 9,6 % Genauigkeit übertreffen kann und dessen Speicherbedarf um 23 % reduziert.

Selektive Strukturierte Zustandsräume für die Analyse langer Videos | Neueste Forschungsarbeiten | HyperAI