SR-GNN : Réseau de neurones graphiques sensible aux relations spatiales pour la catégorisation d'images à grain fin

Au cours des dernières années, des progrès significatifs ont été réalisés dans le domaine de la reconnaissance d’images basée sur les réseaux de neurones convolutifs profonds (CNN). Cela est principalement dû à la forte capacité de ces réseaux à extraire des informations discriminantes sur la pose et les parties des objets à partir de la texture et de la forme. Toutefois, cette approche s’avère souvent inappropriée pour la classification visuelle fine (FGVC), en raison de fortes variations intra-classes et de faibles variations inter-classes, causées par des occlusions, des déformations, des variations d’éclairage, etc. Par conséquent, une représentation de caractéristiques expressive permettant de décrire l’information structurelle globale est essentielle pour caractériser un objet ou une scène. À cette fin, nous proposons une méthode qui capte efficacement des variations subtiles en agrégant des caractéristiques conscientes du contexte provenant des régions d’image les plus pertinentes, ainsi que leur importance pour la discrimination entre catégories fines, sans nécessiter d’étiquetage de boîtes englobantes ou de parties distinctives. Notre approche s’inspire des récents progrès réalisés dans les modèles à attention auto-associative et les réseaux neuronaux graphiques (GNN), en intégrant une transformation de caractéristiques simple mais efficace, sensible aux relations, ainsi qu’un mécanisme d’attention consciente du contexte pour affiner cette transformation, dans un cadre d’apprentissage end-to-end visant à améliorer la discriminabilité des caractéristiques transformées. Notre modèle a été évalué sur huit jeux de données de référence comprenant des objets à granularité fine et des interactions homme-objet. Il surpasse de manière significative les approches de pointe en termes de précision de reconnaissance.