HyperAIHyperAI
vor 9 Tagen

Textbedingter Resampler für die Verständnis von Langform-Videos

Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
Textbedingter Resampler für die Verständnis von Langform-Videos
Abstract

In diesem Paper stellen wir ein textbedingtes Video-Resampler-Modul (TCR) vor, das einen vortrainierten und fixierten visuellen Encoder sowie ein großes Sprachmodell (LLM) nutzt, um lange Videosequenzen für eine Aufgabe zu verarbeiten. Das TCR lokalisiert anhand einer Textbedingung relevante visuelle Merkmale aus dem Video und stellt diese einem LLM zur Generierung einer Textantwort zur Verfügung. Aufgrund seiner leichtgewichtigen Architektur und der Nutzung von Cross-Attention kann das TCR mehr als 100 Frames gleichzeitig verarbeiten, selbst bei Verwendung von herkömmlicher Attention ohne optimierte Implementierungen. Wir leisten folgende Beiträge: (i) Wir entwerfen eine auf Transformers basierende Abtastarchitektur, die lange Videos unter Berücksichtigung einer Aufgabe verarbeiten kann, zusammen mit einem Trainingsverfahren, das es ermöglicht, vortrainierte visuelle und Sprachmodelle zu verbinden; (ii) wir identifizieren Aufgaben, die von einer erweiterten Video-Wahrnehmung profitieren könnten; und (iii) wir empirisch validieren die Wirksamkeit des Ansatzes an einer Vielzahl von Evaluierungsaufgaben, darunter NextQA, EgoSchema und die EGO4D-LTA-Herausforderung.

Textbedingter Resampler für die Verständnis von Langform-Videos | Neueste Forschungsarbeiten | HyperAI