F-CAM : Cartes d'Activation de Classe à Résolution Pleine par Suréchantillonnage Paramétrique Guidé

Les méthodes de cartographie d'activation de classe (CAM) ont récemment suscité un grand intérêt pour les tâches de localisation d'objets faiblement supervisées (WSOL). Elles permettent la visualisation et l'interprétation des réseaux de neurones convolutifs (CNN) sans nécessiter d'entraînement sur des jeux de données entièrement annotés. Ces méthodes sont généralement intégrées à des architectures CNN prêtes à l'emploi, telles que ResNet50. En raison des opérations de convolution et de pooling, ces architectures produisent des cartes CAM à faible résolution, avec un facteur de réduction pouvant atteindre 32, ce qui contribue à des localisations inexactes. Une interpolation est nécessaire pour restaurer les CAM à leur taille d'origine, mais celle-ci ne prend pas en compte les propriétés statistiques des objets, telles que la couleur ou la texture, entraînant des activations aux frontières incohérentes et des localisations erronées. À titre alternatif, nous proposons une méthode générique de redimensionnement paramétrique des CAM, permettant de construire des cartes CAM à résolution pleine (F-CAM) avec une grande précision. Plus précisément, nous introduisons une architecture décodante entraînable pouvant être connectée à tout classificateur CNN afin de produire des localisations CAM hautement précises. Étant donné une carte CAM originale à faible résolution, des pixels correspondant au premier plan et au fond sont aléatoirement échantillonnés pour ajuster finement le décodeur. Des priori supplémentaires, tels que les statistiques d'image et des contraintes de taille, sont également pris en compte afin d'élargir et de raffiner les contours des objets. Des expérimentations étendues, menées sur trois architectures CNN et six méthodes baselines WSOL, sur les jeux de données CUB-200-2011 et OpenImages, montrent que notre méthode F-CAM améliore significativement la précision de localisation des CAM. Les performances de F-CAM sont compétitives par rapport aux méthodes état-de-l'art en WSOL, tout en nécessitant un coût computationnel réduit lors de l'inférence.