Utilisation de l'instabilité dans la détection d'objets faiblement supervisée

La détection d'objets faiblement supervisée (WSOD) se concentre sur l'entraînement d'un détecteur d'objets avec uniquement des annotations au niveau de l'image, ce qui est un défi en raison du fossé entre la supervision et l'objectif. La plupart des approches existantes modélisent le WSOD comme un problème d'apprentissage à partir de multiples instances (MIL). Cependant, nous observons que le résultat du détecteur basé sur MIL est instable, c'est-à-dire que les boîtes englobantes les plus confiantes varient considérablement selon les différentes initialisations. Nous démontrons quantitativement cette instabilité en introduisant une métrique pour la mesurer et analysons empiriquement les raisons de cette instabilité. Bien que l'instabilité semble nuisible pour la tâche de détection, nous soutenons qu'elle peut être utilisée pour améliorer les performances en fusionnant les résultats de détecteurs initialisés différemment. Pour mettre en œuvre cette idée, nous proposons un cadre end-to-end avec plusieurs branches de détection et introduisons une stratégie de fusion simple. Nous proposons également une méthode d'initialisation orthogonale pour augmenter la différence entre les branches de détection. En exploitant cette instabilité, nous obtenons des mAP de 52,6 % et 48,0 % sur les jeux de données PASCAL VOC 2007 et 2012, qui représentent tous deux de nouveaux états de l'art.