2 个月前

用于细粒度视觉识别的双线性卷积神经网络

Tsung-Yu Lin; Aruni RoyChowdhury; Subhransu Maji
用于细粒度视觉识别的双线性卷积神经网络
摘要

我们提出了一种简单且有效的细粒度视觉识别架构,称为双线性卷积神经网络(B-CNNs)。这些网络通过两个卷积神经网络(CNN)提取的特征的池化外积来表示图像,并以平移不变的方式捕捉局部特征交互。B-CNNs 属于无序纹理表示的一类,但与以往的工作不同,它们可以进行端到端的训练。我们的最准确模型在 Caltech-UCSD 鸟类 [67]、NABirds [64]、FGVC 航空器 [42] 和斯坦福汽车 [33] 数据集上分别达到了每张图像 84.1%、79.4%、86.9% 和 91.3% 的准确率,并且在 NVIDIA Titan X GPU 上可以实现每秒 30 帧的运行速度。随后,我们对这些网络进行了系统分析,结果表明:(1) 双线性特征具有高度冗余性,可以在不显著损失准确率的情况下将其大小减少一个数量级;(2) 对其他图像分类任务如纹理和场景识别也非常有效;(3) 可以从零开始在 ImageNet 数据集上进行训练,并相对于基线架构提供一致的性能提升。最后,我们使用神经单元的最高激活和基于梯度的反演技术,在各种数据集上展示了这些模型的可视化结果。完整的系统源代码可在 http://vis-www.cs.umass.edu/bcnn 获取。