Command Palette
Search for a command to run...
Yutong Wang Haiyu Wang Sai Qian Zhang

摘要
视觉-语言模型(VLMs)在图像描述生成和视觉问答等任务中发挥着关键作用,但其高昂的计算成本——主要源于庞大的内存占用和较长的处理时间——限制了其可扩展性及实时应用能力。本文提出,通过对联合查询(Q)、键(K)和值(V)权重矩阵进行奇异值分解(SVD),有效压缩KV缓存规模并降低计算开销。此外,我们引入了一种高效的秩分配策略,可根据SVD秩对模型精度的影响动态调整分解秩,显著减少了内存占用与计算成本。最后,我们将该方法进一步扩展,对VLM的权重和激活值均应用量化技术,从而构建出一种高效且紧凑的视觉-语言模型。实验结果表明,相较于仅依赖量化或仅依赖SVD的先前方法,本方法在硬件资源消耗更低的前提下,实现了超过10%的精度提升,显著提升了模型在资源受限设备上的实时部署能力。