3 个月前

Yutong Wang Haiyu Wang Sai Qian Zhang

摘要

视觉-语言模型（VLMs）在图像描述生成和视觉问答等任务中发挥着关键作用，但其高昂的计算成本——主要源于庞大的内存占用和较长的处理时间——限制了其可扩展性及实时应用能力。本文提出，通过对联合查询（Q）、键（K）和值（V）权重矩阵进行奇异值分解（SVD），有效压缩KV缓存规模并降低计算开销。此外，我们引入了一种高效的秩分配策略，可根据SVD秩对模型精度的影响动态调整分解秩，显著减少了内存占用与计算成本。最后，我们将该方法进一步扩展，对VLM的权重和激活值均应用量化技术，从而构建出一种高效且紧凑的视觉-语言模型。实验结果表明，相较于仅依赖量化或仅依赖SVD的先前方法，本方法在硬件资源消耗更低的前提下，实现了超过10%的精度提升，显著提升了模型在资源受限设备上的实时部署能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Yutong Wang Haiyu Wang Sai Qian Zhang

摘要

视觉-语言模型（VLMs）在图像描述生成和视觉问答等任务中发挥着关键作用，但其高昂的计算成本——主要源于庞大的内存占用和较长的处理时间——限制了其可扩展性及实时应用能力。本文提出，通过对联合查询（Q）、键（K）和值（V）权重矩阵进行奇异值分解（SVD），有效压缩KV缓存规模并降低计算开销。此外，我们引入了一种高效的秩分配策略，可根据SVD秩对模型精度的影响动态调整分解秩，显著减少了内存占用与计算成本。最后，我们将该方法进一步扩展，对VLM的权重和激活值均应用量化技术，从而构建出一种高效且紧凑的视觉-语言模型。实验结果表明，相较于仅依赖量化或仅依赖SVD的先前方法，本方法在硬件资源消耗更低的前提下，实现了超过10%的精度提升，显著提升了模型在资源受限设备上的实时部署能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供