
摘要
卷积神经网络(CNN)一直被视为图像识别问题中的一类强大模型。然而,当利用CNN学习视频的空间-时间表示时,情况并非那么简单。一些研究表明,执行3D卷积是一种有效的方法,可以同时捕捉视频中的空间和时间维度。但是,从头开始开发一个非常深的3D CNN会导致高昂的计算成本和内存需求。一个合理的问题是:为什么不直接使用现成的2D网络来构建3D CNN呢?在本文中,我们在残差学习框架下设计了多种瓶颈构建块的变体,通过在空间域上使用$1\times3\times3$卷积滤波器(相当于2D CNN)加上$3\times1\times1$卷积来构建相邻特征图之间的时间连接,从而模拟$3\times3\times3$卷积。此外,我们提出了一种新的架构,称为伪三维残差网络(Pseudo-3D Residual Net, P3D ResNet),该架构利用了所有这些块的不同组合方式放置在ResNet中,遵循“随着深度增加而增强结构多样性可以提高神经网络能力”的理念。我们的P3D ResNet在Sports-1M视频分类数据集上相比3D CNN和基于帧的2D CNN分别提高了5.3%和1.8%的性能。我们进一步测试了预训练P3D ResNet生成的视频表示在五个不同基准上的泛化性能,并针对三种不同的任务进行了评估,结果表明其性能优于几种最先进的技术。