HyperAIHyperAI
vor 4 Monaten

VideoLLaMA 3: Grenzgebiet der multimodalen Grundmodelle für Bild- und Videoverstehen

Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
VideoLLaMA 3: Grenzgebiet der multimodalen Grundmodelle für Bild- und Videoverstehen
Abstract

In dieser Arbeit schlagen wir VideoLLaMA3 vor, ein fortschrittlicheres multimodales Grundmodell für die Verarbeitung von Bildern und Videos. Das zentrale Designprinzip von VideoLLaMA3 ist visuozentriert. Der Begriff „visuozentriert“ hat zwei Bedeutungen: das visuozentrierte Trainingsparadigma und die visuozentrierte Framework-Design. Das wesentliche Erkenntnis unseres visuozentrierten Trainingsparadigmas ist, dass hochwertige Bild-Text-Daten für die Verarbeitung sowohl von Bildern als auch von Videos entscheidend sind. Anstatt umfangreiche Video-Text-Datensätze zu erstellen, konzentrieren wir uns auf die Erstellung groß angelegter und hochwertiger Bild-Text-Datensätze.VideoLLaMA3 durchläuft vier Trainingsphasen: 1) Die visuozentrierte Ausrichtungsphase, in der der Vision Encoder und der Projektionsmechanismus vorgewärmt werden; 2) Die visuolinguistische Vortrainingsphase, in der der Vision Encoder, der Projektionsmechanismus und das große Sprachmodell (LLM) gemeinsam mit groß angelegten Bild-Text-Daten verschiedener Arten (einschließlich Szenebilder, Dokumente, Diagramme) sowie rein textbasierten Daten angepasst werden; 3) Die Multitask-Fine-Tuning-Phase, in der Bild-Text-SFT-Daten für nachgelagerte Aufgaben und Video-Text-Daten verwendet werden, um eine Grundlage für die Verarbeitung von Videos zu legen; 4) Die videozentrierte Fine-Tuning-Phase, die die Fähigkeit des Modells in der Verarbeitung von Videos weiter verbessert.Was den Framework-Design betrifft, wird der vortrainierte Vision Encoder angepasst, um Bilder unterschiedlicher Größen in Vision Tokens mit entsprechender Anzahl zu kodieren, anstatt eine feste Anzahl von Tokens zu verwenden. Dies ermöglicht es dem Modell, feingranulare Details in Bildern besser zu erfassen. Für Videoeingaben reduzieren wir die Anzahl der Vision Tokens gemäß ihrer Ähnlichkeit, sodass die Darstellung von Videos präziser und kompakter wird. Dank des visuozentrierten Designs erreicht VideoLLaMA3 überzeugende Leistungen in Benchmarks sowohl für Bildverarbeitung als auch für Videoverarbeitung.