
摘要
细粒度视觉分类(Fine-Grained Visual Classification, FGVC)是指识别属于某一超类下多个子类别的对象的任务。近年来,最先进的方法通常设计复杂的学习流程来应对这一挑战。然而,仅依靠视觉信息往往难以准确区分细粒度视觉类别之间的细微差异。如今,图像通常伴随着各种元信息(如时空先验、属性信息及文本描述),这启发我们提出一个问题:是否可以构建一个统一且简洁的框架,有效利用多种元信息以辅助细粒度识别?为回答这一问题,我们提出了一种统一且强大的元信息框架——MetaFormer,用于细粒度视觉分类。在实际应用中,MetaFormer提供了一种简单而高效的方法,实现视觉信息与多种元信息的联合学习。此外,该框架无需复杂组件(“bells and whistles”),即可作为FGVC任务的强大基线模型。大量实验表明,MetaFormer能够有效利用多种元信息,显著提升细粒度识别性能。在公平对比下,仅使用视觉信息时,MetaFormer在iNaturalist2017和iNaturalist2018数据集上已超越当前最先进方法;当引入元信息后,其性能分别超过现有SotA方法5.9%和5.3%。此外,在CUB-200-2011和NABirds数据集上,MetaFormer分别取得了92.3%和92.7%的准确率,显著优于当前最优方法。相关源代码与预训练模型已开源,地址为:https://github.com/dqshuai/MetaFormer。