3 个月前

你的“Flamingo”是我的“Bird”:细粒度,或非细粒度

Dongliang Chang, Kaiyue Pang, Yixiao Zheng, Zhanyu Ma, Yi-Zhe Song, Jun Guo
你的“Flamingo”是我的“Bird”:细粒度,或非细粒度
摘要

在图1中,你看到的究竟是“火烈鸟”还是“鸟”,正是本文所探讨的核心问题。尽管细粒度视觉分类(Fine-Grained Visual Classification, FGVC)的目标是实现前者——精确到具体物种的识别,但对绝大多数非专业人员而言,“鸟”这一更宽泛的类别或许已足够。因此,真正的问题在于:如何根据不同专业水平的用户需求,灵活适配不同细粒度层级的分类定义?为此,我们重新构想了传统FGVC的任务设定:从单一标签分类,转变为自顶向下的、基于预定义的粗粒度到细粒度标签层级的遍历过程。这样一来,我们的分类结果便呈现出一个层次化推理路径:鸟 → 火烈鸟目(Phoenicopteriformes) → 火烈鸟科(Phoenicopteridae) → 火烈鸟(flamingo)。为应对这一新问题,我们首先开展了一项全面的人类实验,结果表明,无论参与者是否自认为是专家,绝大多数人都更偏好多粒度标签输出。在此基础上,我们发现了一个关键洞见:粗粒度标签的预测有助于增强细粒度特征的学习,而细粒度特征又能反过来提升粗粒度分类器的性能。基于这一发现,我们设计了一种结构简单却出人意料有效的解决方案:(i)采用针对不同层级的专用分类头,实现粗粒度特征与细粒度特征的有效解耦;(ii)允许细粒度特征参与粗粒度标签的预测过程,从而进一步促进特征解耦的优化。实验结果表明,该方法在新的层级化FGVC设定下表现优异,并在传统的单标签FGVC任务中也优于现有最先进方法。得益于其结构简洁,该方法可轻松集成至任何现有的FGVC框架之上,且无需引入额外参数,具有良好的通用性与实用性。