
摘要
近年来,卷积神经网络中的3D卷积核(3D CNNs)由于其在视频帧中提取时空特征的能力优于2D CNNs,而在计算机视觉领域变得非常流行。尽管最近在考虑内存和功耗预算的情况下构建资源高效的2D CNN架构方面取得了显著进展,但针对3D CNNs的类似高效架构却鲜有研究。本文中,我们将多种已知的资源高效的2D CNN架构转换为3D CNN架构,并在三个主要基准数据集上评估了它们在不同复杂度水平下的分类准确性。我们进行了以下实验:(1) 在Kinetics-600数据集上检验这些模型的学习能力;(2) 在Jester数据集上检验它们捕捉运动模式的能力;(3) 在UCF-101数据集上检验迁移学习的适用性。我们还在单个Titan XP GPU和Jetson TX2嵌入式系统上评估了每个模型的运行时性能。本研究的结果表明,这些模型可以用于不同类型的实际应用,因为它们在提供实时性能的同时具有较高的准确性和较低的内存使用量。我们的分析显示,在设计资源高效的3D CNNs时,不应为了节省复杂度而设计得过于浅层或狭窄。本文所使用的代码和预训练模型均已公开发布。