17 天前

MetaFormer：一种用于细粒度识别的统一元框架

Qishuai Diao, Yi Jiang, Bin Wen, Jia Sun, Zehuan Yuan

摘要

细粒度视觉分类（Fine-Grained Visual Classification, FGVC）是指识别属于某一超类下多个子类别的对象的任务。近年来，最先进的方法通常设计复杂的学习流程来应对这一挑战。然而，仅依靠视觉信息往往难以准确区分细粒度视觉类别之间的细微差异。如今，图像通常伴随着各种元信息（如时空先验、属性信息及文本描述），这启发我们提出一个问题：是否可以构建一个统一且简洁的框架，有效利用多种元信息以辅助细粒度识别？为回答这一问题，我们提出了一种统一且强大的元信息框架——MetaFormer，用于细粒度视觉分类。在实际应用中，MetaFormer提供了一种简单而高效的方法，实现视觉信息与多种元信息的联合学习。此外，该框架无需复杂组件（“bells and whistles”），即可作为FGVC任务的强大基线模型。大量实验表明，MetaFormer能够有效利用多种元信息，显著提升细粒度识别性能。在公平对比下，仅使用视觉信息时，MetaFormer在iNaturalist2017和iNaturalist2018数据集上已超越当前最先进方法；当引入元信息后，其性能分别超过现有SotA方法5.9%和5.3%。此外，在CUB-200-2011和NABirds数据集上，MetaFormer分别取得了92.3%和92.7%的准确率，显著优于当前最优方法。相关源代码与预训练模型已开源，地址为：https://github.com/dqshuai/MetaFormer。