HyperAIHyperAI

Command Palette

Search for a command to run...

DeepStack:深度堆叠视觉Token对LMMs而言出人意料地简单且高效

Lingchen Meng Jianwei Yang Rui Tian Xiyang Dai Zuxuan Wu Jianfeng Gao Yu-Gang Jiang

摘要

大多数大型多模态模型(LMMs)通过将视觉标记(visual tokens)作为序列输入到大型语言模型(LLM)的第一层来实现。这种架构虽然简单,但显著增加了计算和内存开销,因为其输入层需处理大量额外的标记。本文提出一种新型架构——DeepStack,用于LMMs。考虑到LMMs中语言与视觉Transformer共包含NNN层,我们采用将视觉标记划分为NNN组,并自下而上依次将每组输入至对应层级的Transformer层。令人惊讶的是,这一简单方法显著增强了LMMs在跨层之间建模视觉标记间交互的能力,同时仅带来极小的额外计算成本。我们将DeepStack应用于LMMs中的语言与视觉Transformer,通过大量实验证明了其有效性。在相同上下文长度下,我们的DeepStack 7B和13B模型在9个基准测试上平均分别超越对应基线模型2.7和2.9分。当仅使用五分之一的上下文长度时,DeepStack的性能仍能与使用完整上下文长度的基线模型相媲美。在高分辨率任务上,性能提升尤为显著:相较于LLaVA-1.5-7B,在TextVQA、DocVQA和InfoVQA上的提升分别达到4.2、11.0和4.0。此外,我们将DeepStack应用于视觉Transformer层,同样带来了显著改进,平均提升达3.8分,与LLaVA-1.5-7B相比表现优异。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供