TransIFC : Apprentissage de concentration de caractéristiques conscient des indices invariants pour une classification efficace d'images d'oiseaux à très fine granularité
La classification fine-grain des images d’oiseaux (FBIC) est non seulement significative pour l’observation et la protection des espèces d’oiseaux menacées, mais constitue également une tâche courante dans le domaine de la classification d’images en traitement multimédia et en vision par ordinateur. Toutefois, la FBIC fait face à plusieurs défis, tels que la mue des oiseaux, les arrière-plans complexes et les postures arbitraires des oiseaux. Pour relever efficacement ces défis, nous proposons un nouveau modèle, le Transformer à concentration de caractéristiques conscientes des invariants (TransIFC), qui permet d’apprendre les informations invariantes et essentielles présentes dans les images d’oiseaux. À cette fin, deux modules novateurs sont introduits afin d’exploiter les caractéristiques spécifiques des images d’oiseaux : le module d’agrégation hiérarchique des caractéristiques (HSFA) et le module d’abstraction de caractéristiques dans les caractéristiques (FFA). Le module HSFA agrège les informations multi-échelles des images d’oiseaux en concaténant des caractéristiques provenant de plusieurs couches. Le module FFA extrait les indices invariants des oiseaux en effectuant une sélection de caractéristiques basée sur des scores de discrimination. Le Transformer est utilisé comme architecture fondamentale afin de capturer les relations sémantiques à longue portée présentes dans les images d’oiseaux. En outre, des visualisations abondantes sont fournies pour démontrer l’interprétabilité des modules HSFA et FFA au sein de TransIFC. Des expériences approfondies montrent que TransIFC atteint des performances de pointe sur le jeu de données CUB-200-2011 (91,0 %) et sur le jeu de données NABirds (90,9 %). Enfin, des expériences étendues ont été menées sur le jeu de données Stanford Cars, afin de suggérer le potentiel de généralisation de notre méthode à d’autres tâches de classification visuelle fine-grain.