摘要
尽管卷积神经网络(CNN)在各种视觉识别任务中取得了近期进展,但最先进的动作识别系统仍然依赖于手工设计的运动特征,如光流,以实现最佳性能。我们提出了一种多任务学习模型ActionFlowNet,该模型可以直接从原始像素训练单一流网络,同时利用卷积神经网络估计光流并识别动作,从而在一个单一模型中捕捉外观和运动信息。此外,我们还探讨了所学光流的质量如何影响动作识别。与未使用外部大规模数据和额外光流输入训练的最先进CNN基动作识别模型相比,我们的模型显著提高了动作识别的准确性,提升了31%。即使不预先在大规模标注数据集上进行训练,通过充分挖掘运动信息,我们的模型仍能达到与使用大规模标注数据集(如ImageNet和Sport-1M)训练的模型相当的识别精度。