2 个月前
视频-RAG:视觉对齐的检索增强长视频理解
Yongdong Luo; Xiawu Zheng; Xiao Yang; Guilin Li; Haojia Lin; Jinfa Huang; Jiayi Ji; Fei Chao; Jiebo Luo; Rongrong Ji

摘要
现有的大规模视频-语言模型(LVLMs)由于上下文有限,难以正确理解长视频。为了解决这一问题,微调长上下文的LVLMs和使用基于GPT的代理已成为有前景的解决方案。然而,微调LVLMs需要大量的高质量数据和大量的GPU资源,而基于GPT的代理则依赖于专有模型(例如GPT-4o)。在本文中,我们提出了一种无需训练且成本效益高的方法——视频检索增强生成(Video-RAG),该方法利用视觉对齐的辅助文本来促进跨模态对齐,并提供超出视觉内容的额外信息。具体而言,我们利用开源外部工具从纯视频数据中提取视觉对齐的信息(例如音频、光学字符和物体检测),并将这些提取的信息以即插即用的方式整合到现有的LVLM中,与视频帧和查询一同使用。我们的Video-RAG具有以下几个关键优势:(i) 由于单轮检索,计算开销较低;(ii) 实现简单且与任何LVLM兼容;(iii) 在长视频理解基准测试中表现出显著且一致的性能提升,包括Video-MME、MLVU和LongVideoBench。值得注意的是,当与720亿参数模型结合时,我们的模型在性能上超过了诸如Gemini-1.5-Pro和GPT-4o等专有模型。