vor 2 Monaten

Vamos: Vielseitige Aktionenmodelle für die Videobearbeitung

Shijie Wang; Qi Zhao; Minh Quan Do; Nakul Agarwal; Kwonjoon Lee; Chen Sun

Abstract

Was sind gute Repräsentationen für das Videoverstehen, wie z.B. die Antizipation zukünftiger Aktivitäten oder das Beantworten von video-bedingten Fragen? Während frühere Ansätze sich auf das end-to-end-Lernen direkt aus Videopixeln konzentrierten, schlagen wir vor, textbasierte Repräsentationen erneut zu betrachten, wie allgemeine Video-Beschreibungen (captions), die interpretierbar sind und direkt von großen Sprachmodellen (LLMs) verarbeitet werden können. Intuitiv erfordern verschiedene Videoverstehenaufgaben möglicherweise ergänzende Repräsentationen mit unterschiedlichem Detailgrad. Zu diesem Zweck schlagen wir VAMOS (versatile action models) vor, ein Lernframework, das durch ein großes Sprachmodell als „Denker“ angetrieben wird und flexibel visuelle Einbettungen und freiformige Textbeschreibungen als Eingabe nutzen kann. Um wichtige textuelle Beweise für die Fragebeantwortung zu interpretieren, verallgemeinern wir das Konzept des Bottleneck-Modells auf Tokens und nichtlineare Modelle, wobei hartes Aufmerksamkeit verwendet wird, um eine kleine Teilmenge von Tokens aus dem freiformigen Text als Eingabe für den LLM-Denker auszuwählen. Wir evaluieren VAMOS anhand fünf ergänzender Benchmarks: Ego4D, NeXT-QA, IntentQA, Spacewalk-18 und EgoSchema hinsichtlich seiner Fähigkeit, zeitliche Dynamiken zu modellieren, visuelle Geschichte zu kodieren und Schlussfolgerungen zu ziehen. Überraschenderweise beobachten wir, dass textbasierte Repräsentationen konsistent wettbewerbsfähige Leistungen auf allen Benchmarks erzielen und dass visuelle Einbettungen nur marginale oder gar keine Leistungsverbesserung bieten. Dies zeigt die Effektivität textbasierter Video-Repräsentationen in der Ära der LLMs. Zudem zeigen wir, dass unser Token-Bottleneck-Modell in der Lage ist, relevante Beweise aus freiformigem Text auszuwählen, Testzeitinterventionen zu unterstützen und fast fünfmal so schnell inferiert wird, während es gleichzeitig eine wettbewerbsfähige Fragebeantwortungsleistung aufrechterhält. Der Code und die Modelle werden öffentlich unter https://brown-palm.github.io/Vamos/ veröffentlicht.