Votre « Flamingo » est mon « Bird » : finement granulaire, ou pas

La question que nous posons dans cet article est la suivante : ce que vous voyez sur la Figure 1 est-il un « flamant » ou simplement un « oiseau » ? Alors que la classification visuelle fine-grain (FGVC) vise à parvenir à la réponse la plus précise — « flamant » —, pour la majorité d’entre nous, non-experts, le terme « oiseau » suffirait amplement. La vraie question est donc : comment adapter la classification à différentes définitions fines selon des niveaux d’expertise variés ? À cette fin, nous repensons le cadre traditionnel de la FGVC, passant d’une classification à étiquette unique à une exploration hiérarchique descendante d’une hiérarchie de labels prédéfinie, allant du général au particulier — de sorte que notre réponse devienne : « oiseau » → « Phoenicopteriformes » → « Phoenicopteridae » → « flamant ». Pour aborder ce nouveau problème, nous menons tout d’abord une étude humaine exhaustive, confirmant que la majorité des participants préfèrent des étiquettes à plusieurs niveaux de granularité, indépendamment de leur perception de l’expertise. Nous découvrons ensuite une intuition clé : la prédiction d’étiquettes de niveau grossier renforce l’apprentissage des caractéristiques fines, tandis que les caractéristiques de niveau fin améliorent l’apprentissage du classificateur de niveau grossier. Cette découverte nous permet de concevoir une solution simple mais étonnamment efficace pour notre problème, consistant à (i) utiliser des têtes de classification spécifiques à chaque niveau afin de séparer les caractéristiques de niveau grossier des caractéristiques fines, et (ii) permettre aux caractéristiques les plus fines de participer aux prédictions d’étiquettes de niveau plus général, ce qui favorise une meilleure séparation. Les expériences montrent que notre méthode atteint des performances supérieures dans le nouveau cadre de FGVC, tout en surpassant les méthodes de pointe sur le problème classique de FGVC à étiquette unique. Grâce à sa simplicité, notre approche peut être facilement intégrée à tout cadre existant de FGVC, sans ajout de paramètres.