Guidance Auto-produite pour la Localisation d'Objets Faiblement Supervisée

Les méthodes faiblement supervisées génèrent généralement des résultats de localisation basés sur les cartes d'attention produites par des réseaux de classification. Cependant, ces cartes d'attention mettent en évidence les parties les plus discriminantes de l'objet, qui sont souvent petites et dispersées. Nous proposons de générer des masques d'orientation auto-produits (Self-produced Guidance, SPG) qui séparent le premier plan, c'est-à-dire l'objet d'intérêt, du fond pour fournir aux réseaux de classification des informations sur la corrélation spatiale des pixels. Une approche par étapes est proposée pour intégrer les régions d'objet à haute confiance dans l'apprentissage des masques SPG. Les régions à haute confiance au sein des cartes d'attention sont utilisées pour apprendre progressivement les masques SPG. Ces masques sont ensuite utilisés comme une supervision auxiliaire au niveau pixel pour faciliter l'entraînement des réseaux de classification. De nombreuses expériences menées sur ILSVRC démontrent que SPG est efficace pour produire des cartes de localisation d'objets de haute qualité. En particulier, le SPG proposé atteint un taux d'erreur de localisation Top-1 de 43,83 % sur l'ensemble de validation ILSVRC, ce qui constitue un nouveau meilleur taux d'erreur.Note : - "ILSVRC" est conservé tel quel car il s'agit du nom officiel du dataset (ImageNet Large Scale Visual Recognition Challenge).- "Top-1 localization error rate" est traduit par "taux d'erreur de localisation Top-1", une expression couramment utilisée en français dans ce contexte.