
摘要
在本文中,我们的目标是降低时空深度神经网络的计算成本,使其运行速度与二维网络相当,同时在视频识别基准上保持最先进的准确性。为此,我们提出了一种新颖的多纤维(Multi-Fiber)架构,该架构将复杂的神经网络切分为一组轻量级网络或纤维,这些纤维贯穿整个网络。为了促进纤维之间的信息流动,我们进一步引入了多路复用器模块,最终形成了一种架构,该架构将3D网络的计算成本降低了数量级,同时提高了识别性能。大量的实验结果表明,我们的多纤维架构显著提升了现有卷积网络在图像和视频识别任务中的效率,在UCF-101、HMDB-51和Kinetics数据集上实现了最先进的性能。与I3D和R(2+1)D模型相比,我们提出的模型所需的计算量分别减少了9倍以上和13倍以上,但提供了更高的准确性。