17 天前

DeepStack：深度堆叠视觉Token对LMMs而言出人意料地简单且高效

Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang

摘要

大多数大型多模态模型（LMMs）通过将视觉标记（visual tokens）作为序列输入到大型语言模型（LLM）的第一层来实现。这种架构虽然简单，但显著增加了计算和内存开销，因为其输入层需处理大量额外的标记。本文提出一种新型架构——DeepStack，用于LMMs。考虑到LMMs中语言与视觉Transformer共包含$N$层，我们采用将视觉标记划分为$N$组，并自下而上依次将每组输入至对应层级的Transformer层。令人惊讶的是，这一简单方法显著增强了LMMs在跨层之间建模视觉标记间交互的能力，同时仅带来极小的额外计算成本。我们将DeepStack应用于LMMs中的语言与视觉Transformer，通过大量实验证明了其有效性。在相同上下文长度下，我们的DeepStack 7B和13B模型在9个基准测试上平均分别超越对应基线模型2.7和2.9分。当仅使用五分之一的上下文长度时，DeepStack的性能仍能与使用完整上下文长度的基线模型相媲美。在高分辨率任务上，性能提升尤为显著：相较于LLaVA-1.5-7B，在TextVQA、DocVQA和InfoVQA上的提升分别达到4.2、11.0和4.0。此外，我们将DeepStack应用于视觉Transformer层，同样带来了显著改进，平均提升达3.8分，与LLaVA-1.5-7B相比表现优异。