Segmentation d'instances à supervision faible utilisant la contrainte de justesse des boîtes englobantes

Cet article présente une méthode de segmentation d'instances faiblement supervisée qui utilise des données d'entraînement annotées par des boîtes englobantes serrées. La principale difficulté réside dans l'incertitude de la séparation entre figure et fond à l'intérieur de chaque boîte englobante, en l'absence de signal de supervision à cet égard. Nous surmontons cette difficulté en reformulant le problème comme une tâche d'apprentissage par paquets multiples (Multiple Instance Learning, MIL), et en générant des paquets positifs et négatifs à partir de lignes balayantes tracées dans chaque boîte englobante. Le modèle profond proposé intègre le cadre MIL dans un réseau de segmentation d'instances entièrement supervisé, et peut être dérivé à partir d'une fonction objective composée de deux termes : un terme unaire et un terme pair. Le premier estime les régions correspondant au premier plan et au fond à l'intérieur de chaque boîte englobante, tandis que le second garantit la cohérence et l'unité des masques d'objets estimés. Les résultats expérimentaux montrent que notre méthode se distingue favorablement des méthodes existantes de segmentation d'instances faiblement supervisées, et même dépasse certaines méthodes entièrement supervisées sur le jeu de données PASCAL VOC.