18 天前

轻量级循环跨模态编码器用于视频问答

{Cheol Jeong, Steve Andreas Immanuel}
摘要

视频问答任务本质上是如何有效地融合文本与视频信息以预测答案。现有大多数方法采用Transformer编码器作为跨模态编码器,通过充分利用自注意力机制来融合两种模态的信息。然而,由于自注意力机制具有较高的计算开销,且视频数据本身维度较高,这些方法通常不得不在以下两种方案中做出权衡:1)仅在离线提取的视频和文本特征上训练跨模态编码器;或 2)联合训练跨模态编码器与视频及文本特征提取器,但仅使用稀疏采样的视频帧。仅依赖离线提取特征的方法存在一个关键问题:提取的特征与下游任务数据之间存在脱节。这是因为视频特征提取器和文本特征提取器通常在不同领域独立训练,例如,视频特征提取器基于动作识别任务,而文本特征提取器则基于语义分类任务,导致特征表示难以对齐。另一方面,采用稀疏采样视频帧的方法可能在视频信息丰富或帧数众多时造成信息丢失,从而影响模型性能。为缓解上述问题,我们提出一种轻量级循环式跨模态编码器(Lightweight Recurrent Cross-modal Encoder, LRCE),其核心思想是用一个可学习的特殊标记(special token)替代传统的自注意力机制,用于汇总文本与视频特征。该设计显著降低了模型的计算开销。此外,我们引入一种新颖的多段采样策略,从视频的不同片段中稀疏采样帧,以获取更细粒度的信息表示。在三个主流VideoQA数据集上的大量实验表明,与现有方法相比,LRCE在性能上取得了显著提升,同时保持了极低的计算成本,展现出良好的实用性与有效性。