9 天前

半参数化视频锚定文本生成

Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
半参数化视频锚定文本生成
摘要

高效的视频-语言建模需要考虑计算成本,因为视频通常包含大量帧,有时甚至达到难以处理的程度。传统的参数化方法(如注意力机制)并不理想,因为其计算开销随视频长度增加呈二次增长。此前的研究多依赖离线特征提取或帧采样来高效表示视频,主要聚焦于短视频片段中的跨模态建模。本文提出一种半参数化的视频引导文本生成模型——SeViT,为面向长时未剪辑视频的可扩展视频-语言建模提供了一种新视角。SeViT将视频视为外部数据存储,引入非参数化的帧检索模块,针对给定查询从数据存储中筛选出少数相关帧;同时结合参数化的生成模块,通过后期融合策略将查询与检索到的帧有效整合。实验结果表明,该方法在长视频建模及因果视频理解任务中具有显著优势。此外,SeViT在四个视频-语言基准数据集上均取得了新的最先进性能:在iVQA(+4.8)、Next-QA(+6.9)和ActivityNet-QA(+4.8)上准确率领先,以及在MSRVTT-Caption任务上CIDEr得分提升3.6。