9 天前

文本条件驱动的重采样器用于长视频理解

Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
文本条件驱动的重采样器用于长视频理解
摘要

本文提出了一种文本条件驱动的视频重采样模块(Text-Conditioned Video Resampler, TCR),该模块利用预训练且冻结的视觉编码器与大语言模型(Large Language Model, LLM)对长视频序列进行处理。TCR 在给定文本条件的情况下,能够定位视频中相关的视觉特征,并将这些特征提供给 LLM 以生成文本响应。得益于其轻量级架构以及对交叉注意力机制的使用,TCR 仅通过标准注意力机制即可一次性处理超过 100 帧视频,且无需依赖特定优化实现。本文的主要贡献包括:(i)设计了一种基于 Transformer 的采样架构,能够根据任务需求处理长视频序列,并提出一种训练方法,使该架构可有效衔接预训练的视觉模型与语言模型;(ii)识别出若干可从更长视频感知能力中获益的任务;(iii)在包括 NextQA、EgoSchema 以及 EGO4D-LTA 挑战赛在内的多种评估任务中,通过实证验证了该方法的有效性。

文本条件驱动的重采样器用于长视频理解 | 最新论文 | HyperAI超神经