
摘要
受到近期大型语言模型(LLMs)复杂推理能力的启发,人们设计了多种策略来弥合视频模态的差距。一个突出的策略涉及视频语言模型(VideoLMs),该模型通过训练可学习的接口将高级视觉编码器与大型语言模型连接起来。最近,另一种策略浮出水面,即在多个阶段中利用现成的基础模型,如VideoLMs和LLMs,进行模态桥接。在这项研究中,我们提出了一种简单而新颖的策略,仅使用单一的视觉语言模型(VLM)。我们的出发点是一个简单的洞见:视频由一系列图像或帧组成,并交织着时间信息。视频理解的核心在于巧妙地管理每一帧的空间细节及其时间方面。首先,我们将视频转换为单个复合图像,通过将多个帧以网格布局排列。生成的单个图像被称为图像网格。这种格式虽然保持了单一图像的外观,但有效地在网格结构中保留了时间信息。因此,图像网格方法使得可以直接应用单一高性能VLM,而无需任何视频数据训练。我们在十个零样本视频问答基准上进行了广泛的实验分析,包括五个开放式和五个选择题基准,结果表明所提出的图像网格视觉语言模型(IG-VLM)在其中九个基准上超过了现有方法。