
摘要
在本文中,我们提出了一种更为先进的多模态基础模型——VideoLLaMA3,用于图像和视频理解。VideoLLaMA3的核心设计理念是以视觉为中心。以视觉为中心的含义有两方面:视觉中心化的训练范式和视觉中心化的框架设计。我们的视觉中心化训练范式的要点在于,高质量的图像-文本数据对于图像和视频理解都至关重要。因此,我们专注于构建大规模且高质量的图像-文本数据集,而不是准备大量的视频-文本数据集。VideoLLaMA3共有四个训练阶段:1)视觉中心化对齐阶段,该阶段预热视觉编码器和投影器;2)视觉-语言预训练阶段,该阶段利用涵盖多种类型(包括场景图像、文档、图表)的大规模图像-文本数据以及纯文本数据联合调整视觉编码器、投影器和大语言模型(LLM);3)多任务微调阶段,该阶段结合了用于下游任务的图像-文本SFT数据和用于建立视频理解基础的视频-文本数据;4)视频中心化微调阶段,进一步提升模型在视频理解方面的能力。在框架设计方面,为了更好地捕捉图像中的细粒度细节,预先训练的视觉编码器被调整为可以将不同大小的图像编码成相应数量的视觉标记(tokens),而不仅仅是固定数量的标记。对于视频输入,我们根据其相似性减少视觉标记的数量,从而使视频表示更加精确和紧凑。得益于这些以视觉为中心的设计,VideoLLaMA3在图像和视频理解基准测试中均取得了令人信服的表现。