C-MIL : Apprentissage par Instances Multiples pour la Détection d'Objets Faiblement Supervisée

La détection d'objets faiblement supervisée (WSOD) est une tâche complexe lorsqu'elle est fournie avec une supervision de catégorie d'image mais qu'elle doit simultanément apprendre les emplacements des objets et les détecteurs d'objets. De nombreuses approches de WSOD adoptent l'apprentissage par multiples instances (MIL) et ont des fonctions de perte non convexes qui sont sujettes à se coincer dans des minima locaux (localisation erronée des parties d'objets) tout en manquant la totalité de l'étendue de l'objet pendant l'entraînement. Dans cet article, nous introduisons une méthode d'optimisation par continuation dans le MIL, créant ainsi un apprentissage par multiples instances par continuation (C-MIL), dans le but d'atténuer le problème de non-convexité de manière systématique. Nous partitionnons les instances en sous-ensembles spatialement liés et liés à la classe, et approximons la fonction de perte originale par une série de fonctions de perte lissées définies au sein des sous-ensembles. L'optimisation des fonctions de perte lissées empêche la procédure d'entraînement de tomber prématurément dans des minima locaux et facilite la découverte de Régions Extrémales Sémantiques Stables (SSERs) qui indiquent l'étendue complète de l'objet. Sur les jeux de données PASCAL VOC 2007 et 2012, C-MIL améliore considérablement l'état de l'art en matière de détection d'objets faiblement supervisée et de localisation d'objets faiblement supervisée.