2 个月前

FASTER循环网络用于高效的视频分类

Linchao Zhu; Laura Sevilla-Lara; Du Tran; Matt Feiszli; Yi Yang; Heng Wang
FASTER循环网络用于高效的视频分类
摘要

典型的视频分类方法通常将视频分割成短片段,独立地对每个片段进行推理,然后汇总片段级别的预测结果以生成视频级别的结果。然而,独立处理视觉相似的片段忽略了视频序列的时间结构,并增加了推理时的计算成本。在本文中,我们提出了一种名为FASTER(即特征聚合用于时空冗余)的新框架。FASTER旨在利用相邻片段之间的冗余性,并通过学习不同复杂度模型的预测结果聚合来降低计算成本。该框架可以整合来自昂贵模型的高质量表示以捕捉细微的动作信息,同时利用来自廉价模型的轻量级表示来覆盖视频中的场景变化。为此,设计了一种新的递归网络(即FAST-GRU),用于聚合不同表示的混合体。与现有方法相比,FASTER可以在保持多个流行数据集(如Kinetics、UCF-101和HMDB-51)上的最先进准确性的同时,将浮点运算次数减少超过10倍。

FASTER循环网络用于高效的视频分类 | 最新论文 | HyperAI超神经