
摘要
三维卷积网络在视频识别任务中广泛应用。尽管在标准基准测试上取得了优异的识别性能,但这类方法通常需对视频帧序列进行三维卷积操作,因此计算开销较大。针对不同视频之间存在的显著差异,本文提出Ada3D,一种基于条件计算的框架,该框架能够学习针对具体视频实例的三维卷积使用策略,动态决定在三维网络中使用哪些帧以及哪些卷积层。这些策略由一个双头轻量级选择网络根据输入视频片段进行条件生成。随后,仅保留选择网络所选中的帧和卷积层用于三维模型的前向传播以生成预测结果。选择网络通过策略梯度方法进行优化,目标是最大化一个奖励函数,该函数鼓励在有限计算资源下实现准确预测。我们在三个视频识别基准数据集上进行了实验,结果表明,本方法在达到与当前最先进三维模型相当的准确率的同时,整体计算量减少了20%至50%。此外,我们还验证了所学习的策略具有良好的可迁移性,且Ada3D可与多种主干网络结构以及现代的片段选择方法兼容。定性分析显示,对于“静态”视频输入,该方法分配较少的三维卷积层和帧数;而对于运动密集型视频片段,则会启用更多计算资源,体现出良好的自适应能力。