2 个月前

LLaVA-MR:用于视频片段检索的大规模语言与视觉助手

Lu, Weiheng ; Li, Jian ; Yu, An ; Chang, Ming-Ching ; Ji, Shengpeng ; Xia, Min
LLaVA-MR:用于视频片段检索的大规模语言与视觉助手
摘要

多模态大语言模型(MLLMs)在视觉感知、理解和推理方面得到了广泛应用。然而,由于大语言模型(LLMs)的上下文容量有限以及粗略的帧提取,长时间视频处理和精确时刻检索仍然面临挑战。我们提出了一种用于时刻检索的大语言与视觉助手(LLaVA-MR),该方法利用MLLMs实现了视频中的准确时刻检索和上下文定位。LLaVA-MR结合了密集帧与时编码(DFTE)进行时空特征提取,信息帧选择(IFS)捕捉短暂的视觉和运动模式,以及动态令牌压缩(DTC)来管理LLM的上下文限制。在Charades-STA和QVHighlights等基准测试上的评估表明,LLaVA-MR超越了11种最先进的方法,在QVHighlights数据集上[email protected]提高了1.82%,[email protected]提高了1.29%。我们的实现将在被接受后开源。

LLaVA-MR:用于视频片段检索的大规模语言与视觉助手 | 最新论文 | HyperAI超神经