
摘要
对于细粒度分类任务,视频可能比静态图像提供更好的数据源,因为视频更有可能包含区分性模式。然而,视频序列也可能包含大量冗余和无关的帧。如何定位感兴趣的临界信息是一项具有挑战性的任务。在本文中,我们提出了一种新的网络结构,称为冗余减少注意力机制(Redundancy Reduction Attention, RRA),该机制通过抑制冗余特征通道来学习关注多个区分性模式。具体而言,它首先通过时空软注意力对选定帧的特征图中的所有特征向量进行加权求和,以总结视频内容;然后根据这一总结,利用学习到的非线性变换预测需要抑制或增强哪些通道。抑制是通过调节特征图并剔除弱激活实现的。更新后的特征图用于下一次迭代。最终,基于多个总结对视频进行分类。所提出的方法在多个视频分类数据集上取得了出色的表现。此外,我们还收集了两个大规模的视频数据集——YouTube-Birds 和 YouTube-Cars,以供未来在细粒度视频分类领域的研究使用。这些数据集可在 http://www.cs.umd.edu/~chenzhu/fgvc 获取。