HyperAIHyperAI
vor 2 Monaten

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs

Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs
Abstract

In dieser Arbeit stellen wir VideoLLaMA 2 vor, eine Reihe von Video-Large-Language-Modellen (Video-LLMs), die entwickelt wurden, um die räumlich-zeitliche Modellierung und das Audiosverständnis in video- und audioorientierten Aufgaben zu verbessern. Aufbauend auf seinem Vorgänger verfügt VideoLLaMA 2 über einen maßgeschneiderten räumlich-zeitlichen Faltungsverbindungsmechanismus (Spatial-Temporal Convolution, STC), der die komplexen räumlichen und zeitlichen Dynamiken von Videodaten effektiv erfasst. Zudem integrieren wir durch gemeinsames Training einen Audiozweig in das Modell, wodurch die multimodalen Verständigungsfähigkeiten des Modells durch nahtlose Einbeziehung von Audiosignalen bereichert werden. Umfassende Evaluierungen bei mehrfach-wahlbasierten Video-Fragebeantwortungsaufgaben (MC-VQA), offenen Video-Fragebeantwortungsaufgaben (OE-VQA) und Video-Beschreibungsaufgaben (VC) zeigen, dass VideoLLaMA 2 konsistent wettbewerbsfähige Ergebnisse unter den Open-Source-Modellen erzielt und bei mehreren Benchmarks sogar annähernd den Leistungen einiger proprietärer Modelle entspricht. Darüber hinaus zeigt VideoLLaMA 2 bei rein-audio-basierten und audio-video-basierten Fragebeantwortungsaufgaben (AQA & OE-AVQA) vergleichsweise vernünftige Verbesserungen gegenüber bestehenden Modellen. Diese Fortschritte unterstreichen die überlegene Leistung von VideoLLaMA 2 in der multimodalen Wahrnehmung und setzen neue Standards für intelligente Videosysteme zur Analyse. Alle Modelle sind öffentlich zugänglich, um weitere Forschungen zu fördern.

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs | Neueste Forschungsarbeiten | HyperAI