2 个月前

使用较少帧进行高效视频分类

Shweta Bhardwaj; Mukundhan Srinivasan; Mitesh M. Khapra
使用较少帧进行高效视频分类
摘要

近年来,构建用于视频分类的小型模型(内存占用小于1 GB)引起了广泛关注。尽管这些模型体积较小,但它们通常通过反复应用一个小权重矩阵来处理视频中的所有帧。例如,基于循环神经网络的方法使用一个循环权重矩阵为视频的每一帧计算隐藏状态。同样,如NetVLAD等聚类和聚合方法也具有一个可学习的聚类矩阵,该矩阵用于为视频中的每一帧分配软聚类。由于这些模型需要查看视频中的每一帧,因此即使内存占用较小,浮点运算次数(FLOPs)仍然很大。我们的研究重点是构建计算高效的视频分类模型,这些模型处理较少的帧,从而减少FLOPs的数量。类似于内存高效模型的思想,我们在不同的设置中使用了蒸馏技术。具体而言,在我们的案例中,一个计算密集型的教师模型会查看视频中的所有帧,而一个计算高效的学生模型则只查看视频中的一小部分帧。这与典型的内存高效教师-学生设置形成对比,在后者中,教师和学生模型都会查看视频中的所有帧,但学生模型具有较少的参数。因此,我们的工作补充了关于内存高效视频分类的研究。我们对三种类型的视频分类模型进行了广泛的评估:(i) 循环模型 (ii) 聚类和聚合模型 (iii) 内存高效的聚类和聚合模型,并展示了在每种情况下,一个“全视角”教师可以训练出一个“少视角”学生。实验结果表明,所提出的学生网络可以在性能下降可忽略的情况下将推理时间减少30%,并将FLOPs数量减少约90%。