ContextLocNet : Modèles de réseaux profonds contextualisés pour la localisation faiblement supervisée

Nous visons à localiser des objets dans des images en utilisant uniquement une supervision au niveau de l'image. Les approches précédentes à ce problème se concentrent principalement sur les régions d'objets discriminantes et échouent souvent à localiser précisément les contours des objets. Nous abordons ce problème en introduisant deux types de modèles de guidage contextuel, les modèles additifs et contrastifs, qui exploitent leurs régions contextuelles environnantes pour améliorer la localisation. Le modèle additif encourage la région d'objet prédite à être soutenue par sa région contextuelle environnante. Le modèle contrastif encourage la région d'objet prédite à se distinguer de sa région contextuelle environnante. Notre approche bénéficie des récents succès des réseaux neuronaux convolutifs pour la reconnaissance d'objets et étend Fast R-CNN à la localisation faiblement supervisée d'objets. Une évaluation expérimentale exhaustive sur les benchmarks PASCAL VOC 2007 et 2012 montre que notre approche contextuelle améliore significativement la localisation et la détection faiblement supervisées.