
摘要
视频流媒体的爆炸性增长带来了在高精度和低计算成本下进行视频理解的挑战。传统的二维卷积神经网络(2D CNN)虽然计算成本较低,但无法捕捉时间关系;基于三维卷积神经网络(3D CNN)的方法可以实现良好的性能,但计算复杂度较高,导致部署成本高昂。本文提出了一种通用且有效的时移模块(Temporal Shift Module, TSM),该模块兼具高效性和高性能。具体而言,它可以达到三维卷积神经网络的性能水平,同时保持二维卷积神经网络的复杂度。TSM通过沿时间维度移动部分通道来促进相邻帧之间的信息交换。它可以插入到二维卷积神经网络中,以零计算量和零参数实现时间建模。我们还将TSM扩展到了在线设置中,从而实现了实时低延迟的在线视频识别和视频目标检测。TSM具有准确性和高效性:发布时在Something-Something排行榜上排名第一;在Jetson Nano和Galaxy Note8上,它分别实现了13毫秒和35毫秒的低延迟在线视频识别。代码可在以下地址获取:https://github.com/mit-han-lab/temporal-shift-module。