Apprentissage de caractéristiques profondes pour la localisation discriminative

Dans cette étude, nous réexaminons la couche de regroupement par moyenne globale proposée dans [13], et mettons en lumière comment elle permet explicitement au réseau neuronal convolutif d'avoir une capacité de localisation remarquable, malgré être entraîné avec des étiquettes au niveau de l'image. Bien que cette technique ait été initialement présentée comme un moyen de régulariser l'entraînement, nous constatons qu'elle construit en réalité une représentation profonde générique et localisable qui peut être appliquée à diverses tâches. Malgré l'apparente simplicité du regroupement par moyenne globale, nous sommes capables d'obtenir une erreur top-5 de 37,1 % pour la localisation d'objets sur ILSVRC 2014, ce qui est remarquablement proche de l'erreur top-5 de 34,2 % obtenue par une approche CNN entièrement supervisée. Nous démontrons que notre réseau est capable de localiser les régions discriminantes des images dans diverses tâches, même s'il n'a pas été entraîné spécifiquement pour cela.