Classification visuelle fine-grained avec Batch Confusion Norm
Nous introduisons un concept de régularisation fondé sur la norme de confusion par lot proposée (Batch Confusion Norm, BCN) afin de traiter le problème de classification visuelle fine (Fine-Grained Visual Classification, FGVC). Ce problème se distingue notamment par deux propriétés remarquables : une forte similarité inter-classes et des variations intra-classes importantes, ce qui rend la conception d’un classificateur FGVC efficace particulièrement difficile. Inspirés de l’utilisation de l’énergie de confusion par paires comme mécanisme de régularisation, nous développons la technique BCN pour améliorer l’apprentissage FGVC en imposant une confusion prédictive entre classes au sein de chaque lot d’entraînement, et ainsi atténuer le risque de surapprentissage lié à l’exploration des détails fins des caractéristiques d’image. En outre, notre méthode est mise en œuvre dans un modèle CNN à attention gated, renforcé par l’intégration du pooling pyramidal à trous (Atrous Spatial Pyramid Pooling, ASPP) pour extraire des caractéristiques discriminantes et des mécanismes d’attention adaptés. Pour démontrer l’efficacité de notre approche, nous rapportons des résultats de pointe sur plusieurs jeux de données standard de FGVC, accompagnés d’analyses ablatives approfondies.