Video-RAG: Visuell ausgerichtete Retrieval-verstärkte Langvideos-Verständnis

Bestehende große Video-Sprachmodelle (LVLMs) haben Schwierigkeiten, langständige Videos korrekt zu verstehen, aufgrund begrenzter Kontextinformationen. Um dieses Problem anzugehen, sind das Feinjustieren von LVLMs mit langem Kontext und die Verwendung von GPT-basierten Agenten als vielversprechende Lösungen hervorgetreten. Das Feinjustieren von LVLMs würde jedoch umfangreiche hochwertige Daten und erhebliche GPU-Ressourcen erfordern, während GPT-basierte Agenten auf proprietären Modellen (z.B. GPT-4o) angewiesen wären.In dieser Arbeit schlagen wir Video-Retrieval-Augmentierte Generierung (Video-RAG) vor, eine trainingsfreie und kosteneffiziente Pipeline, die visuell ausgerichtete Hilfstexte einsetzt, um die Modalitätsübereinstimmung zu fördern und gleichzeitig zusätzliche Informationen über den visuellen Inhalt hinaus bereitzustellen. Genauer gesagt nutzen wir Open-Source-Außenwerkzeuge, um visuell ausgerichtete Informationen aus reinen Videodaten (z.B. Audio, optische Zeichen und Objekterkennung) zu extrahieren, und integrieren diese Informationen in ein bestehendes LVLM als Hilfstexte neben Videoframes und Anfragen in einer plug-and-play Art.Unser Video-RAG bietet mehrere wesentliche Vorteile: (i) es ist leichtgewichtig mit geringem Rechenaufwand dank der Einzelschritt-Retrieval; (ii) es ist einfach umzusetzen und kompatibel mit jedem LVLM; und (iii) es zeigt signifikante und konsistente Leistungsverbesserungen bei Benchmarks für das Verstehen langer Videos, einschließlich Video-MME, MLVU und LongVideoBench. Bemerkenswerterweise übertreffen unsere Modelle proprietäre Modelle wie Gemini-1.5-Pro und GPT-4o bei der Nutzung eines 72-Billionen-Parameter-Modells.