17 天前
用于细粒度视觉分类的注意力卷积二值神经树
Ruyi Ji, Longyin Wen, Libo Zhang, Dawei Du, Yanjun Wu, Chen Zhao, Xianglong Liu, Feiyue Huang

摘要
细粒度视觉分类(Fine-grained Visual Categorization, FGVC)是一项重要但极具挑战性的任务,其难点主要源于类别内部差异较大(高类内变异)而类别间差异较小(低类间变异),这通常由形变、遮挡、光照变化等因素引起。为应对弱监督下的FGVC问题,本文提出一种基于注意力机制的卷积二叉神经树架构(Attention Convolutional Binary Neural Tree, AC-BNT)。具体而言,该方法在树结构的边沿引入卷积操作,并利用每个节点中的路由函数(routing function)确定从根节点到叶节点的计算路径。最终分类决策由所有叶节点预测结果的加权和得到。深层卷积操作用于学习物体的表征,而树状结构则刻画了由粗到细的层次化特征学习过程。此外,引入注意力Transformer模块,以增强网络捕捉判别性特征的能力。整个网络采用负对数似然损失(negative log-likelihood loss),通过随机梯度下降(SGD)结合反向传播实现端到端训练。在CUB-200-2011、Stanford Cars和Aircraft等多个数据集上的大量实验表明,所提出的方法在性能上优于当前主流的先进方法。