WSOD2 : Apprentissage de la distillation de l’objectivité ascendante et descendante pour la détection d’objets faiblement supervisée

Nous étudions la détection d'objets faiblement supervisée (WSOD), un domaine crucial pour réduire l'implication humaine dans l'annotation au niveau des objets. Les approches dominantes intègrent des mécanismes de proposition de régions avec des réseaux neuronaux convolutifs (CNN). Bien que les CNN soient particulièrement efficaces pour extraire des caractéristiques locales discriminantes, de grands défis persistent dans la mesure de la probabilité qu'une boîte englobante contienne un objet entier (notamment, la notion de « objectness »). Dans cet article, nous proposons un nouveau cadre pour la WSOD intitulé Objectness Distillation (WSOD2), fondé sur un mécanisme d'apprentissage spécifiquement conçu pour la détection d'objets faiblement supervisée. Des cibles de régression multiples sont déterminées de manière précise en combinant de manière adaptative les mesures de « objectness » ascendantes (BU) et descendantes (TD), tirées respectivement de mesures de bas niveau et des confidences du CNN. Grâce à la régression de boîtes englobantes, l'apprentissage des propositions de régions peut progressivement s'approcher de ses cibles de régression en s'appuyant sur une forte objectness pendant l'entraînement. Ainsi, les représentations profondes d'objectness apprises à partir des preuves ascendantes peuvent être progressivement transférées (distillées) vers le CNN par optimisation. Nous explorons différentes courbes d'entraînement adaptatives pour les mesures BU/TD d'objectness, et démontrons que le cadre proposé WSOD2 atteint des résultats de pointe.