HyperAIHyperAI

Command Palette

Search for a command to run...

Video-RAG: Visuell ausgerichtete Retrieval-verstärkte Langvideos-Verständnis

Yongdong Luo Xiawu Zheng Xiao Yang Guilin Li Haojia Lin Jinfang Huang Jiayi Ji Fei Chao Jiebo Luo Rongrong Ji

Zusammenfassung

Bestehende große Video-Sprachmodelle (LVLMs) haben Schwierigkeiten, langständige Videos korrekt zu verstehen, aufgrund begrenzter Kontextinformationen. Um dieses Problem anzugehen, sind das Feinjustieren von LVLMs mit langem Kontext und die Verwendung von GPT-basierten Agenten als vielversprechende Lösungen hervorgetreten. Das Feinjustieren von LVLMs würde jedoch umfangreiche hochwertige Daten und erhebliche GPU-Ressourcen erfordern, während GPT-basierte Agenten auf proprietären Modellen (z.B. GPT-4o) angewiesen wären.In dieser Arbeit schlagen wir Video-Retrieval-Augmentierte Generierung (Video-RAG) vor, eine trainingsfreie und kosteneffiziente Pipeline, die visuell ausgerichtete Hilfstexte einsetzt, um die Modalitätsübereinstimmung zu fördern und gleichzeitig zusätzliche Informationen über den visuellen Inhalt hinaus bereitzustellen. Genauer gesagt nutzen wir Open-Source-Außenwerkzeuge, um visuell ausgerichtete Informationen aus reinen Videodaten (z.B. Audio, optische Zeichen und Objekterkennung) zu extrahieren, und integrieren diese Informationen in ein bestehendes LVLM als Hilfstexte neben Videoframes und Anfragen in einer plug-and-play Art.Unser Video-RAG bietet mehrere wesentliche Vorteile: (i) es ist leichtgewichtig mit geringem Rechenaufwand dank der Einzelschritt-Retrieval; (ii) es ist einfach umzusetzen und kompatibel mit jedem LVLM; und (iii) es zeigt signifikante und konsistente Leistungsverbesserungen bei Benchmarks für das Verstehen langer Videos, einschließlich Video-MME, MLVU und LongVideoBench. Bemerkenswerterweise übertreffen unsere Modelle proprietäre Modelle wie Gemini-1.5-Pro und GPT-4o bei der Nutzung eines 72-Billionen-Parameter-Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp