
摘要
大多数动作识别方法基于以下两种策略之一:a) 使用平均池化、最大池化或递归神经网络(RNN)等方法对帧级CNN特征进行后期聚合;b) 通过3D卷积进行时空聚合。前者假设在一定程度的抽象层次上帧特征之间相互独立,然后执行高层次的聚合,而后者则从分组的帧中提取时空特征,实现早期融合。本文探索了这两种策略之间的中间地带,通过让相邻的特征分支在发展为高层次表示的过程中相互作用。这种相互作用发生在层次结构每一层的特征差分和均值计算之间,并且具有卷积结构,能够学习局部选择合适的模式,这与以往研究中作为设计选择全局强加某种模式(例如特征差分)的方法形成对比。我们进一步约束这种相互作用是保守的,例如在一个分支中的局部特征减法会在另一个分支中通过加法来补偿,从而保持总的特征流不变。我们在多个现有模型上评估了所提出方法的性能,包括TSN、TRN和ECO,以展示其在提高动作识别性能方面的灵活性和有效性。