WILDCAT : Apprentissage supervisé faiblement supervisé de ConvNets profondes pour la classification d'images, la localisation ponctuelle et la segmentation

Cet article présente WILDCAT, une méthode d’apprentissage profond qui vise simultanément à aligner les régions d’image afin d’obtenir une invariance spatiale et à apprendre des caractéristiques fortement localisées. Notre modèle est entraîné uniquement à l’aide d’étiquettes globales d’image et s’attaque à trois tâches principales de reconnaissance visuelle : la classification d’images, la localisation d’objets en supervision faible et la segmentation sémantique. WILDCAT étend les réseaux neuronaux convolutifs d’avant-garde à trois niveaux principaux : l’utilisation de réseaux entièrement convolutifs pour préserver la résolution spatiale, la conception explicite au sein du réseau de caractéristiques locales liées à différentes modalités de classes, ainsi qu’une nouvelle méthode de pooling de ces caractéristiques afin de produire une prédiction globale de l’image, nécessaire à l’entraînement en supervision faible. Des expérimentations étendues montrent que notre modèle surpasse significativement les méthodes d’état de l’art.