
摘要
细粒度图像分类因其数据集中存在的层次化“粗粒度到细粒度”分布而具有挑战性。通常,细粒度数据集中的物体区分依赖于局部部件信息,然而并非所有部件都具有判别性或不可或缺。近年来,自然语言描述被用于获取物体中具有判别性的部件信息。本文利用自然语言描述,提出一种基于多层双分支网络的联合表示学习策略,以同时建模自然语言描述与图像信息,从而提升细粒度图像分类性能。大量实验结果表明,所提出方法在细粒度图像分类任务中显著提升了分类准确率。此外,该方法在CUB-200-2011数据集上取得了新的最先进(state-of-the-art)性能。