HyperAIHyperAI

Command Palette

Search for a command to run...

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs

Zusammenfassung

In dieser Arbeit stellen wir VideoLLaMA 2 vor, eine Reihe von Video-Large-Language-Modellen (Video-LLMs), die entwickelt wurden, um die räumlich-zeitliche Modellierung und das Audiosverständnis in video- und audioorientierten Aufgaben zu verbessern. Aufbauend auf seinem Vorgänger verfügt VideoLLaMA 2 über einen maßgeschneiderten räumlich-zeitlichen Faltungsverbindungsmechanismus (Spatial-Temporal Convolution, STC), der die komplexen räumlichen und zeitlichen Dynamiken von Videodaten effektiv erfasst. Zudem integrieren wir durch gemeinsames Training einen Audiozweig in das Modell, wodurch die multimodalen Verständigungsfähigkeiten des Modells durch nahtlose Einbeziehung von Audiosignalen bereichert werden. Umfassende Evaluierungen bei mehrfach-wahlbasierten Video-Fragebeantwortungsaufgaben (MC-VQA), offenen Video-Fragebeantwortungsaufgaben (OE-VQA) und Video-Beschreibungsaufgaben (VC) zeigen, dass VideoLLaMA 2 konsistent wettbewerbsfähige Ergebnisse unter den Open-Source-Modellen erzielt und bei mehreren Benchmarks sogar annähernd den Leistungen einiger proprietärer Modelle entspricht. Darüber hinaus zeigt VideoLLaMA 2 bei rein-audio-basierten und audio-video-basierten Fragebeantwortungsaufgaben (AQA & OE-AVQA) vergleichsweise vernünftige Verbesserungen gegenüber bestehenden Modellen. Diese Fortschritte unterstreichen die überlegene Leistung von VideoLLaMA 2 in der multimodalen Wahrnehmung und setzen neue Standards für intelligente Videosysteme zur Analyse. Alle Modelle sind öffentlich zugänglich, um weitere Forschungen zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp