HyperAIHyperAI

Command Palette

Search for a command to run...

Vamos: Vielseitige Aktionenmodelle für die Videobearbeitung

Shijie Wang Qi Zhao Minh Quan Do Nakul Agarwal Kwonjoon Lee Chen Sun

Zusammenfassung

Was sind gute Repräsentationen für das Videoverstehen, wie z.B. die Antizipation zukünftiger Aktivitäten oder das Beantworten von video-bedingten Fragen? Während frühere Ansätze sich auf das end-to-end-Lernen direkt aus Videopixeln konzentrierten, schlagen wir vor, textbasierte Repräsentationen erneut zu betrachten, wie allgemeine Video-Beschreibungen (captions), die interpretierbar sind und direkt von großen Sprachmodellen (LLMs) verarbeitet werden können. Intuitiv erfordern verschiedene Videoverstehenaufgaben möglicherweise ergänzende Repräsentationen mit unterschiedlichem Detailgrad. Zu diesem Zweck schlagen wir VAMOS (versatile action models) vor, ein Lernframework, das durch ein großes Sprachmodell als „Denker“ angetrieben wird und flexibel visuelle Einbettungen und freiformige Textbeschreibungen als Eingabe nutzen kann. Um wichtige textuelle Beweise für die Fragebeantwortung zu interpretieren, verallgemeinern wir das Konzept des Bottleneck-Modells auf Tokens und nichtlineare Modelle, wobei hartes Aufmerksamkeit verwendet wird, um eine kleine Teilmenge von Tokens aus dem freiformigen Text als Eingabe für den LLM-Denker auszuwählen. Wir evaluieren VAMOS anhand fünf ergänzender Benchmarks: Ego4D, NeXT-QA, IntentQA, Spacewalk-18 und EgoSchema hinsichtlich seiner Fähigkeit, zeitliche Dynamiken zu modellieren, visuelle Geschichte zu kodieren und Schlussfolgerungen zu ziehen. Überraschenderweise beobachten wir, dass textbasierte Repräsentationen konsistent wettbewerbsfähige Leistungen auf allen Benchmarks erzielen und dass visuelle Einbettungen nur marginale oder gar keine Leistungsverbesserung bieten. Dies zeigt die Effektivität textbasierter Video-Repräsentationen in der Ära der LLMs. Zudem zeigen wir, dass unser Token-Bottleneck-Modell in der Lage ist, relevante Beweise aus freiformigem Text auszuwählen, Testzeitinterventionen zu unterstützen und fast fünfmal so schnell inferiert wird, während es gleichzeitig eine wettbewerbsfähige Fragebeantwortungsleistung aufrechterhält. Der Code und die Modelle werden öffentlich unter https://brown-palm.github.io/Vamos/ veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vamos: Vielseitige Aktionenmodelle für die Videobearbeitung | Paper | HyperAI