17 天前
更多即更少:通过大-小网络与深度时空聚合学习高效的视频表示
Quanfu Fan, Chun-Fu Chen, Hilde Kuehne, Marco Pistoia, David Cox

摘要
当前最先进的视频动作识别模型主要基于计算成本高昂的3D卷积神经网络(3D ConvNets),这导致训练和评估这些架构需要大规模GPU集群。为解决这一问题,本文提出一种轻量级且内存友好的动作识别架构,仅需极少的资源即可实现与现有先进模型相当甚至更优的性能。该架构结合了一个在低分辨率帧上运行的深度子网络与一个在高分辨率帧上运行的紧凑子网络,从而在保证高效率的同时实现高精度。实验表明,与基线模型相比,本方法在浮点运算量(FLOPs)上降低3至4倍,内存占用减少约2倍,显著提升了计算资源利用效率。这一优势使得在相同计算预算下,能够训练更深的模型并处理更多输入帧。为进一步减少对大规模3D卷积的依赖,本文还提出一种时间聚合模块(Temporal Aggregation Module),可在极小额外计算开销下有效建模视频中的时序依赖关系。所提模型在多个主流动作识别基准数据集(包括Kinetics、Something-Something和Moments-in-time)上均取得了优异性能。相关代码与模型已开源,地址为:https://github.com/IBM/bLVNet-TAM。