11 天前

VILA:视觉语言模型预训练研究

Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
VILA:视觉语言模型预训练研究
摘要

视觉语言模型(Visual Language Models, VLMs)近年来随着大规模语言模型(Large Language Models, LLMs)的成功而迅速发展。尽管已有大量研究致力于视觉指令微调(visual instruction tuning),以拓展LLM对视觉输入的处理能力,但对视觉语言预训练过程的深入研究仍显不足——这一阶段正是模型学习联合建模视觉与语言两种模态的关键时期。在本研究中,我们通过逐步可控的对比实验,系统性地考察了VLM预训练的设计选择,方法是将LLM逐步扩展为VLM。我们得出三个主要发现:(1)在预训练阶段冻结LLM可获得良好的零样本性能,但缺乏上下文学习(in-context learning)能力,而这种能力需要在后续阶段解冻LLM才能实现;(2)交错式(interleaved)的预训练数据结构具有显著优势,而仅使用图像-文本配对数据并非最优方案;(3)在指令微调阶段,将纯文本指令数据重新混合为图文数据形式,不仅能缓解纯文本任务性能的下降,还能显著提升VLM任务的准确率。基于这一优化的预训练策略,我们构建了VILA——一个视觉语言模型系列。该模型在主流基准测试中持续超越当前最先进的模型(如LLaVA-1.5),且无需依赖额外的复杂技巧(bells and whistles)。此外,多模态预训练还揭示了VILA所具备的若干引人注目的特性,包括多图像推理能力、更强的上下文学习能力以及更优的世界知识理解能力。

VILA:视觉语言模型预训练研究 | 最新论文 | HyperAI超神经