
摘要
卷积神经网络(Convolutional Neural Networks, CNNs)是图像识别领域的标准模型。然而,作为二维CNN向视频识别直接扩展的三维CNN(3D CNNs),在标准动作识别基准测试中并未取得与二维CNN相当的成功。3D CNN性能下降的主要原因之一是其计算复杂度显著增加,需要大规模标注数据集才能实现有效训练。为降低3D CNN的复杂度,已有研究提出了三维卷积核分解(3D kernel factorization)方法。然而,现有分解方法大多依赖人工设计且结构固定,缺乏灵活性。本文提出一种新型时空特征提取模块——门控-位移-融合(Gate-Shift-Fuse, GSF),该模块能够动态控制时空分解过程中的特征交互,并自适应地根据数据特性在时间维度上路由特征,以数据依赖的方式进行融合。GSF利用分组空间门控机制对输入张量进行分解,并通过通道加权策略对分解后的张量进行融合。GSF可无缝嵌入现有的二维CNN架构中,将其高效转化为具备强时空建模能力的特征提取器,且仅引入可忽略的参数量与计算开销。我们在两种主流的二维CNN架构上对GSF进行了全面分析,并在五个标准动作识别基准上取得了当前最优或具有竞争力的性能表现,验证了该方法的有效性与通用性。