
摘要
深度卷积神经网络在图像识别任务中取得了巨大成功。然而,将最先进的图像识别网络应用于视频识别并非易事,因为逐帧评估的速度太慢且成本过高。我们提出了一种快速而准确的视频识别框架——深度特征流(Deep Feature Flow)。该框架仅在稀疏的关键帧上运行计算密集型的卷积子网络,并通过光流场将这些关键帧的深层特征图传播到其他帧。由于光流计算相对快速,因此该方法能够显著加速处理过程。整个架构的端到端训练显著提高了识别精度。深度特征流具有灵活性和通用性,已在两个近期的大规模视频数据集上得到了验证。这一方法为实现实际应用中的视频识别迈出了重要一步。