Réseau de Conscience Qualitative Sémantique-Contextuelle pour la Catégorisation Visuelle Fine-Grained

L'exploration et l'extraction de caractéristiques subtiles mais distinctives entre des sous-catégories ayant des apparences similaires sont cruciales pour la catégorisation visuelle à grains fins (FGVC). Cependant, moins d'efforts ont été consacrés à l'évaluation de la qualité des représentations visuelles extraites. Intuitivement, le réseau peut avoir du mal à capturer des caractéristiques discriminantes à partir d'échantillons de faible qualité, ce qui entraîne une diminution significative des performances en FGVC. Pour relever ce défi, nous proposons un réseau de reconnaissance de la qualité contextuelle et sémantique faiblement supervisé (CSQA-Net) pour la FGVC. Dans ce réseau, afin de modéliser la relation spatiale contextuelle entre les descripteurs de parties riches et les sémantiques globales pour capturer plus de détails discriminants au sein de l'objet, nous concevons un nouveau module d'attention croisée multi-parties et multi-échelles (MPMSCA). Avant d'être alimenté au module MPMSCA, le navigateur de parties est développé pour résoudre les problèmes de confusion d'échelle et identifier avec précision les régions locales distinctives. De plus, nous proposons un module générique d'évaluation de la qualité sémantique multi-niveaux (MLSQE) pour superviser progressivement et améliorer les sémantiques hiérarchiques provenant des différents niveaux du réseau principal. Enfin, les caractéristiques contextuelles issues du MPMSCA et les caractéristiques sémantiquement améliorées issues du MLSQE sont transmises aux classifieurs évaluateurs de qualité correspondants pour évaluer leur qualité en temps réel, ce qui renforce ainsi la discriminabilité des représentations de caractéristiques. Des expériences approfondies sur quatre jeux de données populaires et hautement compétitifs en FGVC démontrent la supériorité du CSQA-Net proposé par rapport aux méthodes les plus avancées actuellement disponibles.