
摘要
实时大型多模态模型(LMMs)如GPT-4o的出现引发了对高效LMMs的广泛关注。多模态框架通常将视觉输入编码为视觉标记(连续表示),并将其与文本指令整合到大型语言模型(LLMs)的上下文中,其中大规模参数和大量上下文标记(主要是视觉标记)导致了显著的计算开销。以往针对高效LMMs的研究主要集中在用较小的模型替代LLM主干,而忽视了标记数量这一关键问题。在本文中,我们介绍了LLaVA-Mini,这是一种具有最少视觉标记的高效LMM。为了实现视觉标记的高度压缩同时保留视觉信息,我们首先分析了LMMs如何理解视觉标记,并发现大多数视觉标记仅在LLM主干的早期层中起关键作用,这些层主要负责将视觉信息融合到文本标记中。基于这一发现,LLaVA-Mini引入了模态预融合技术,提前将视觉信息融合到文本标记中,从而极大地减少了输入到LLM主干中的视觉标记数量至一个标记。LLaVA-Mini是一个统一的大型多模态模型,能够以高效的方式支持图像、高分辨率图像和视频的理解。在11个基于图像和7个基于视频的基准测试中的实验表明,LLaVA-Mini仅使用1个视觉标记就超越了使用576个视觉标记的LLaVA-v1.5。效率分析显示,LLaVA-Mini可以减少77%的浮点运算次数(FLOPs),在40毫秒内提供低延迟响应,并在配备24GB内存的GPU硬件上处理超过10,000帧的视频。