HyperAIHyperAI
il y a 17 jours

Le diable est dans les canaux : perte mutuelle-par-canal pour la classification d'images à granularité fine

Dongliang Chang, Yifeng Ding, Jiyang Xie, Ayan Kumar Bhunia, Xiaoxu Li, Zhanyu Ma, Ming Wu, Jun Guo, Yi-Zhe Song
Le diable est dans les canaux : perte mutuelle-par-canal pour la classification d'images à granularité fine
Résumé

La clé pour résoudre la catégorisation d’images à grain fin réside dans la localisation de régions discriminantes et locales correspondant à des traits visuels subtils. Des progrès considérables ont été réalisés grâce à des réseaux complexes spécifiquement conçus pour apprendre des représentations de caractéristiques discriminantes au niveau des parties. Dans cet article, nous montrons qu’il est possible de capturer ces détails subtils sans recourir à des architectures de réseau excessivement complexes ni à des mécanismes d’entraînement sophistiqués — une seule fonction de perte suffit. Le principal ingénieux réside dans notre approche précoce d’analyse des canaux de caractéristiques individuels, contrairement à la pratique courante qui commence par une carte de caractéristiques consolidée. La fonction de perte proposée, nommée mutual-channel loss (MC-Loss), se compose de deux composantes spécifiques aux canaux : une composante de discriminalité et une composante de diversité. La composante de discriminalité impose à tous les canaux de caractéristiques appartenant à la même classe de devenir discriminants, grâce à un mécanisme d’attention novateur par canal. La composante de diversité impose en outre une contrainte supplémentaire, afin que les canaux deviennent mutuellement exclusifs au niveau spatial. Le résultat final est donc un ensemble de canaux de caractéristiques, chacun reflétant une région localement discriminante spécifique à une classe donnée. La MC-Loss peut être entraînée de manière end-to-end, sans nécessiter d’étiquettes de boîtes englobantes ou de parties, et produit des régions hautement discriminantes lors de l’inférence. Les résultats expérimentaux montrent que, lorsqu’elle est appliquée sur des réseaux de base courants, la MC-Loss atteint des performances de pointe sur les quatre jeux de données de catégorisation fine (CUB-Birds, FGVC-Aircraft, Flowers-102 et Stanford-Cars). Des études ablatives confirment également l’avantage de la MC-Loss par rapport à d’autres pertes générales récemment proposées pour la classification visuelle, sur deux architectures de base différentes. Le code est disponible à l’adresse suivante : https://github.com/dongliangchang/Mutual-Channel-Loss