17 天前

基于自适应采样的高效图文模型视频问答

Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria
基于自适应采样的高效图文模型视频问答
摘要

视频问答(Video Question Answering)是视频理解领域的一项基础任务。尽管当前配备视频Transformer的视觉-语言模型(VLMs)已实现时序建模并取得优异性能,但其高昂的计算开销使其难以在实时应用场景中部署。为降低成本,现有方法通常仅对视频进行稀疏采样,选取少量帧来代表视频的主要内容,并在此基础上微调图像-文本模型。然而,当前主流的视频理解模型多采用随机方式采样一组帧或片段,未考虑帧间视觉内容的内在关联性,也未关注其与具体问题的相关性。我们认为,这种无目标的采样策略可能遗漏关键帧——而正确答案往往正是从这些帧中推导得出。随着采样稀疏度的增加(这在视频长度增长时尤为常见),该问题会进一步加剧。为缓解上述挑战,本文提出两种帧采样策略:最领域相关帧(Most Domain Frames, MDF)与最具隐含信息帧(Most Implied Frames, MIF),旨在最大程度保留对回答给定问题最具价值的帧。MDF通过自举(bootstrap)方式被动地降低关键帧遗漏的风险,而MIF则借助辅助模型,针对每个视频-问题对主动搜索最具信息量的关键帧。在三个公开数据集上,基于三种先进VLM(CLIP、GIT和All-in-one)的实验结果表明,所提出的采样策略能够显著提升图像-文本预训练模型在视频问答任务中的性能。本文所提出方法的源代码已公开,获取地址为:https://github.com/declare-lab/sas-vqa。

基于自适应采样的高效图文模型视频问答 | 最新论文 | HyperAI超神经