8 个月前

计算机视觉

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

摘要

多模态大语言模型（MLLMs）在理解和分析视频内容方面展示了令人鼓舞的进展。然而，处理长视频仍然是一个重要的挑战，主要受到大语言模型（LLM）上下文长度的限制。为了解决这一局限性，我们提出了一种时空自适应压缩机制——LongVU，该机制能够在保留长视频视觉细节的同时减少视频标记的数量。我们的思路是利用跨模态查询和帧间依赖关系来自适应地减少视频中的时间和空间冗余。具体而言，我们利用DINOv2特征去除高相似度的冗余帧。然后，我们通过文本引导的跨模态查询进行选择性的帧特征减少。进一步地，我们根据帧的时间依赖关系进行空间标记减少。这种自适应压缩策略在给定的上下文长度内有效地处理了大量帧，并且视觉信息损失很小。我们的LongVU在多种视频理解基准测试中始终超越现有方法，特别是在长达一小时的视频理解任务如VideoMME和MLVU上表现尤为突出。即使在轻量级的大语言模型中，我们的LongVU也能有效缩小规模，并保持最先进的视频理解性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

摘要

多模态大语言模型（MLLMs）在理解和分析视频内容方面展示了令人鼓舞的进展。然而，处理长视频仍然是一个重要的挑战，主要受到大语言模型（LLM）上下文长度的限制。为了解决这一局限性，我们提出了一种时空自适应压缩机制——LongVU，该机制能够在保留长视频视觉细节的同时减少视频标记的数量。我们的思路是利用跨模态查询和帧间依赖关系来自适应地减少视频中的时间和空间冗余。具体而言，我们利用DINOv2特征去除高相似度的冗余帧。然后，我们通过文本引导的跨模态查询进行选择性的帧特征减少。进一步地，我们根据帧的时间依赖关系进行空间标记减少。这种自适应压缩策略在给定的上下文长度内有效地处理了大量帧，并且视觉信息损失很小。我们的LongVU在多种视频理解基准测试中始终超越现有方法，特别是在长达一小时的视频理解任务如VideoMME和MLVU上表现尤为突出。即使在轻量级的大语言模型中，我们的LongVU也能有效缩小规模，并保持最先进的视频理解性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供