SIM-OFE : Extraction d'informations structurelles et amélioration des caractéristiques orientées objet pour la catégorisation visuelle fine
La catégorisation visuelle fine-grain (FGVC) vise à distinguer des objets visuels appartenant à plusieurs sous-catégories d'une même catégorie grossière. Les différences subtiles entre les classes au sein de ces sous-catégories rendent cette tâche particulièrement difficile. Les méthodes existantes se concentrent principalement sur l'apprentissage de motifs visuels saillants, tout en ignorant la manière de capturer la structure interne de l'objet, ce qui entrave l'obtention de régions discriminantes complètes à l'intérieur de l'objet et limite ainsi les performances de la FGVC. Pour surmonter ce problème, nous proposons une méthode appelée SIM-OFE (Structure Information Mining and Object-aware Feature Enhancement) pour la catégorisation visuelle fine-grain, qui exploite la composition structurelle interne et les caractéristiques d'apparence des objets visuels. Plus précisément, nous introduisons tout d'abord un module d'attention hybride simple mais efficace, basé sur une analyse de la signification à portée globale et locale, afin de localiser les objets visuels. Ensuite, un module d'extraction d'informations structurelles est conçu pour modéliser la distribution et les relations contextuelles des régions critiques à l'intérieur de l'objet, mettant ainsi en évidence à la fois l'objet entier et les régions discriminantes permettant de distinguer des différences subtiles. Enfin, un module d'amélioration des caractéristiques orienté vers l'objet est proposé pour combiner de manière attentive les caractéristiques discriminantes à portée globale et locale, afin de construire des représentations visuelles puissantes pour la reconnaissance fine-grain. Des expériences étendues sur trois jeux de données standard de FGVC démontrent que notre méthode SIM-OFE atteint des performances de pointe.