17 天前

DeepStack:深度堆叠视觉Token对LMMs而言出人意料地简单且高效

Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang
DeepStack:深度堆叠视觉Token对LMMs而言出人意料地简单且高效
摘要

大多数大型多模态模型(LMMs)通过将视觉标记(visual tokens)作为序列输入到大型语言模型(LLM)的第一层来实现。这种架构虽然简单,但显著增加了计算和内存开销,因为其输入层需处理大量额外的标记。本文提出一种新型架构——DeepStack,用于LMMs。考虑到LMMs中语言与视觉Transformer共包含$N$层,我们采用将视觉标记划分为$N$组,并自下而上依次将每组输入至对应层级的Transformer层。令人惊讶的是,这一简单方法显著增强了LMMs在跨层之间建模视觉标记间交互的能力,同时仅带来极小的额外计算成本。我们将DeepStack应用于LMMs中的语言与视觉Transformer,通过大量实验证明了其有效性。在相同上下文长度下,我们的DeepStack 7B和13B模型在9个基准测试上平均分别超越对应基线模型2.7和2.9分。当仅使用五分之一的上下文长度时,DeepStack的性能仍能与使用完整上下文长度的基线模型相媲美。在高分辨率任务上,性能提升尤为显著:相较于LLaVA-1.5-7B,在TextVQA、DocVQA和InfoVQA上的提升分别达到4.2、11.0和4.0。此外,我们将DeepStack应用于视觉Transformer层,同样带来了显著改进,平均提升达3.8分,与LLaVA-1.5-7B相比表现优异。

DeepStack:深度堆叠视觉Token对LMMs而言出人意料地简单且高效 | 最新论文 | HyperAI超神经