17 天前

NSNet:用于高效视频识别的非显著性抑制采样器

Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, Wanli Ouyang
NSNet:用于高效视频识别的非显著性抑制采样器
摘要

在计算资源受限的场景下,实现高精度的视频识别对人工智能系统而言仍具挑战性。基于自适应推理的高效视频识别方法通常通过预览视频内容,聚焦于显著区域以降低计算开销。然而,现有大多数方法主要关注基于视频分类目标的复杂网络学习,普遍将所有帧视为正样本,极少在监督信号中关注正样本(显著帧)与负样本(非显著帧)之间的区分能力。为弥补这一不足,本文提出一种新型的非显著性抑制网络(Non-saliency Suppression Network, NSNet),能够有效抑制非显著帧的响应。具体而言,在帧级别,NSNet生成具有区分能力的有效伪标签,用于指导显著性特征的学习;在视频级别,通过在显著特征与非显著特征上施加双重视频级监督信号,学习一个时序注意力模块,进一步增强对非显著区域的抑制能力。来自两个层级的显著性度量被融合,以充分利用多粒度互补信息。在四个主流基准数据集上的大量实验表明,所提出的NSNet不仅实现了当前最优的精度-效率权衡,且相比现有先进方法,其实用推理速度显著提升2.4至4.3倍。项目主页详见:https://lawrencexia2008.github.io/projects/nsnet。