HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-MR:用于视频片段检索的大规模语言与视觉助手

Weiheng Lu Jian Li* An Yu Ming-Ching Chang Shengpeng Ji Min Xia

摘要

多模态大语言模型(MLLMs)在视觉感知、理解和推理方面得到了广泛应用。然而,由于大语言模型(LLMs)的上下文容量有限以及粗略的帧提取,长时间视频处理和精确时刻检索仍然面临挑战。我们提出了一种用于时刻检索的大语言与视觉助手(LLaVA-MR),该方法利用MLLMs实现了视频中的准确时刻检索和上下文定位。LLaVA-MR结合了密集帧与时编码(DFTE)进行时空特征提取,信息帧选择(IFS)捕捉短暂的视觉和运动模式,以及动态令牌压缩(DTC)来管理LLM的上下文限制。在Charades-STA和QVHighlights等基准测试上的评估表明,LLaVA-MR超越了11种最先进的方法,在QVHighlights数据集上[email protected]提高了1.82%,[email protected]提高了1.29%。我们的实现将在被接受后开源。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LLaVA-MR:用于视频片段检索的大规模语言与视觉助手 | 论文 | HyperAI超神经