11 天前
低保真视频编码器优化用于时序动作定位
{Brais Martinez, Bernard Ghanem, Xiatian Zhu, Juan Manuel Perez Rua, Mengmeng Xu}

摘要
现有的大多数时间动作定位(Temporal Action Localization, TAL)方法均采用迁移学习范式:首先在大规模动作分类数据集(即源域)上优化视频编码器,随后冻结该编码器,并在动作定位数据集(即目标域)上训练TAL头。这一流程导致视频编码器面临任务不匹配的问题——其训练目标是动作分类,而实际应用中却需服务于动作定位任务。直观上,联合优化视频编码器与TAL头可有效缓解这一矛盾,构成一个强有力的基线方案。然而,由于长时未剪辑视频处理带来的巨大计算开销,该方法在GPU显存受限的TAL任务中难以实施。本文提出一种新颖的低保真度(Low-fidelity, LoFi)视频编码器优化方法,以解决上述挑战。不同于在TAL训练中始终使用完整的高分辨率配置,我们通过降低小批量样本在时间、空间或时空维度上的分辨率,从而在中等硬件配置下实现视频编码器与TAL头的联合优化。这一策略在不突破显存限制的前提下,使梯度能够基于TAL监督损失反向传播至视频编码器,有效缓解了任务不匹配问题,并生成更具表征能力的特征。大量实验表明,所提出的LoFi优化方法可显著提升现有TAL方法的性能。令人振奋的是,即使仅采用基于轻量级ResNet18的单流RGB视频编码器,本方法在多数情况下仍能超越基于双流(RGB + 光流)ResNet50的复杂模型,性能提升幅度可观。