17 天前

MoViNets:面向高效视频识别的移动视频网络

Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong
MoViNets:面向高效视频识别的移动视频网络
摘要

我们提出Mobile Video Networks(MoViNets),这是一类计算与内存高效型视频网络,能够对流式视频进行在线推理。三维卷积神经网络(3D CNN)在视频识别任务中具有较高的准确性,但其计算与内存开销巨大,且不支持在线推理,难以在移动设备上部署。为此,我们提出一种三步法,在显著降低3D CNN峰值内存使用的同时大幅提升计算效率。首先,我们构建了一个视频网络搜索空间,并采用神经架构搜索(Neural Architecture Search, NAS)技术,生成高效且多样化的3D CNN架构。其次,我们引入“流缓冲”(Stream Buffer)技术,将内存需求与视频片段时长解耦,使3D CNN能够在训练和推理阶段以极小的恒定内存开销,处理任意长度的流式视频序列。第三,我们提出一种简洁的集成(ensembling)策略,在不牺牲效率的前提下进一步提升模型精度。这三项逐步递进的技术使MoViNets在Kinetics、Moments in Time和Charades等视频动作识别数据集上达到了当前最优的精度与效率平衡。例如,MoViNet-A5-Stream在Kinetics 600数据集上的精度与X3D-XL相当,但所需浮点运算量(FLOPs)减少80%,内存占用降低65%。相关代码将发布于:https://github.com/tensorflow/models/tree/master/official/vision。