C-MIDN : Réseau de détection à instances multiples couplées avec une guidance de segmentation pour la détection d'objets supervisionnée faiblement

La détection d'objets faiblement supervisée (WSOD), qui nécessite uniquement des annotations au niveau d'image, a récemment suscité un grand intérêt. En combinant les réseaux de neurones convolutifs avec la méthode d'apprentissage par instances multiples (MIL), le Multiple Instance Detection Network (MIDN) est devenu la méthode la plus populaire pour traiter le problème de WSOD et est largement utilisé comme modèle initial dans de nombreuses études. Nous affirmons que le MIDN a tendance à converger vers les parties d'objets les plus discriminantes, ce qui limite les performances des méthodes basées sur lui. Dans cet article, nous proposons un nouveau modèle, le Coupled Multiple Instance Detection Network (C-MIDN), pour résoudre ce problème. Plus précisément, nous utilisons une paire de MIDNs qui opèrent de manière complémentaire, en combinant une suppression de propositions. Les informations de localisation fournies par les deux MIDNs sont ensuite couplées afin d'obtenir des boîtes englobantes plus serrées et de localiser efficacement plusieurs objets. Nous introduisons également un algorithme de suppression de propositions guidée par la segmentation (SGPR), qui garantit le respect de la contrainte MIL après la suppression et assure la robustesse du C-MIDN. Grâce à une implémentation simple du C-MIDN incluant une révision en ligne du détecteur, nous obtenons des résultats de 53,6 % et 50,3 % de mAP respectivement sur les défis PASCAL VOC 2007 et 2012, dépassant significativement les états de l'art précédents.