
摘要
当前基于视频的动作与手势识别的前沿方法通常依赖于两个核心理念:其一,采用多流处理架构;其二,构建卷积网络的集成模型。本文在上述两个方面均进行了改进与拓展。首先,我们通过在空间与时间维度上对输入图像进行由粗到细的分解,系统性地增强特征提取的感知域,从而实现互补特征的有效捕捉;同时,引入参数重置的全连接层,自适应地聚焦于训练中关键的特征路径。其次,我们提出一种“按需使用”机制,并结合“粗粒度退出”策略,使高分辨率处理仅在数据相关条件下选择性启用,从而在保持高精度的同时显著降低计算开销。所提出的C2F学习方法构建的集成网络,在Something-Something V1、V2以及Jester数据集上,均在降低计算成本的同时实现了更高的识别精度,且在Kinetics-400数据集上仍保持较强的竞争力。尤为独特的是,本方法构建的C2F集成网络能够灵活适应不同计算预算的约束条件。