
摘要
我们提出“动态图像”(dynamic image)这一新概念,这是一种新颖且紧凑的视频表示方法,特别适用于基于卷积神经网络(CNN)的视频分析。动态图像基于秩池化(rank pooling)思想,通过一个排序机器(ranking machine)的参数来编码视频帧的时间演化过程而获得。具体而言,动态图像通过对视频原始像素直接应用秩池化操作,将每段视频压缩为一张单一的RGB图像。该方法思路简洁而强大,使得现有的CNN模型可直接应用于视频数据,并通过微调实现高效处理。我们进一步提出一种高效且有效的近似秩池化算子,其计算速度相较传统秩池化提升了数个数量级。基于这一新近似秩池化算子,我们构建了新的近似秩池化CNN层,从而将动态图像的概念推广至动态特征图(dynamic feature maps)的表示。我们在标准动作识别基准测试中验证了所提新表示方法的强大性能,取得了当前最先进的结果。