11 天前
VILA:视觉语言模型预训练研究
Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han

摘要
视觉语言模型(Visual Language Models, VLMs)近年来随着大规模语言模型(Large Language Models, LLMs)的成功而迅速发展。尽管已有大量研究致力于视觉指令微调(visual instruction tuning),以拓展LLM对视觉输入的处理能力,但对视觉语言预训练过程的深入研究仍显不足——这一阶段正是模型学习联合建模视觉与语言两种模态的关键时期。在本研究中,我们通过逐步可控的对比实验,系统性地考察了VLM预训练的设计选择,方法是将LLM逐步扩展为VLM。我们得出三个主要发现:(1)在预训练阶段冻结LLM可获得良好的零样本性能,但缺乏上下文学习(in-context learning)能力,而这种能力需要在后续阶段解冻LLM才能实现;(2)交错式(interleaved)的预训练数据结构具有显著优势,而仅使用图像-文本配对数据并非最优方案;(3)在指令微调阶段,将纯文本指令数据重新混合为图文数据形式,不仅能缓解纯文本任务性能的下降,还能显著提升VLM任务的准确率。基于这一优化的预训练策略,我们构建了VILA——一个视觉语言模型系列。该模型在主流基准测试中持续超越当前最先进的模型(如LLaVA-1.5),且无需依赖额外的复杂技巧(bells and whistles)。此外,多模态预训练还揭示了VILA所具备的若干引人注目的特性,包括多图像推理能力、更强的上下文学习能力以及更优的世界知识理解能力。