17 天前

MARS:用于动作识别的运动增强RGB流

{ Cordelia Schmid, Karteek Alahari, Philippe Weinzaepfel, Nieves Crasto}
MARS:用于动作识别的运动增强RGB流
摘要

目前最先进的动作识别方法大多采用双流架构结合3D卷积:一为处理RGB帧的外观流,另一为处理光流帧的运动流。尽管融合光流与RGB信息能够提升性能,但精确计算光流的开销较大,显著增加了动作识别的延迟,限制了双流方法在实际应用中对低延迟有严格要求场景的使用。本文提出两种学习策略,用于训练一个标准的3D卷积神经网络(CNN),该网络仅基于RGB帧进行操作,但能够模拟运动流的表征能力,从而在测试阶段无需计算光流。首先,通过最小化与光流流之间的特征级损失,我们证明网络能够以高保真度重现运动流的特征表达。其次,为更有效地融合外观与运动信息,我们采用特征损失与标准交叉熵损失的线性组合进行联合训练。将采用该联合损失训练得到的流称为“运动增强型RGB流”(Motion-Augmented RGB Stream, MARS)。作为单一流架构,MARS在性能上优于单独使用RGB或光流的流:例如在Kinetics数据集上,MARS达到72.7%的准确率,显著高于仅使用RGB流的72.0%和仅使用光流流的65.6%。