vor 8 Monaten

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

Zusammenfassung

In dieser Arbeit stellen wir VideoLLaMA 2 vor, eine Reihe von Video-Large-Language-Modellen (Video-LLMs), die entwickelt wurden, um die räumlich-zeitliche Modellierung und das Audiosverständnis in video- und audioorientierten Aufgaben zu verbessern. Aufbauend auf seinem Vorgänger verfügt VideoLLaMA 2 über einen maßgeschneiderten räumlich-zeitlichen Faltungsverbindungsmechanismus (Spatial-Temporal Convolution, STC), der die komplexen räumlichen und zeitlichen Dynamiken von Videodaten effektiv erfasst. Zudem integrieren wir durch gemeinsames Training einen Audiozweig in das Modell, wodurch die multimodalen Verständigungsfähigkeiten des Modells durch nahtlose Einbeziehung von Audiosignalen bereichert werden. Umfassende Evaluierungen bei mehrfach-wahlbasierten Video-Fragebeantwortungsaufgaben (MC-VQA), offenen Video-Fragebeantwortungsaufgaben (OE-VQA) und Video-Beschreibungsaufgaben (VC) zeigen, dass VideoLLaMA 2 konsistent wettbewerbsfähige Ergebnisse unter den Open-Source-Modellen erzielt und bei mehreren Benchmarks sogar annähernd den Leistungen einiger proprietärer Modelle entspricht. Darüber hinaus zeigt VideoLLaMA 2 bei rein-audio-basierten und audio-video-basierten Fragebeantwortungsaufgaben (AQA & OE-AVQA) vergleichsweise vernünftige Verbesserungen gegenüber bestehenden Modellen. Diese Fortschritte unterstreichen die überlegene Leistung von VideoLLaMA 2 in der multimodalen Wahrnehmung und setzen neue Standards für intelligente Videosysteme zur Analyse. Alle Modelle sind öffentlich zugänglich, um weitere Forschungen zu fördern.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs | Paper | HyperAI

Command Palette

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VideoLLaMA 2: Fortschritte im räumlich-zeitlichen Modellieren und im Audioverstehen in Video-LLMs

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao