BoxInst : Segmentation d'instances à haute performance avec des annotations de boîtes

Nous présentons une méthode de haute performance capable d'atteindre une segmentation d'instances au niveau des masques en utilisant uniquement des annotations de boîtes englobantes pour l'entraînement. Bien que ce cadre ait été étudié dans la littérature, nous montrons ici des performances significativement plus élevées avec un design simple (par exemple, en améliorant considérablement le meilleur AP de masque précédemment rapporté de 21,1 % dans Hsu et al. (2019) à 31,6 % sur le jeu de données COCO).Notre idée centrale est de redessiner la fonction de perte pour l'apprentissage des masques dans la segmentation d'instances, sans apporter de modifications au réseau de segmentation lui-même. Les nouvelles fonctions de perte peuvent superviser l'entraînement des masques sans dépendre des annotations de masques. Cela est rendu possible grâce à deux termes de perte : 1) un terme substitut qui minimise la discordance entre les projections de la boîte englobante réelle et le masque prédit ; 2) une perte par paire qui peut exploiter l'a priori selon lequel les pixels proches avec des couleurs similaires sont très susceptibles d'avoir la même étiquette de catégorie.Les expériences montrent que la nouvelle fonction de perte redessinée peut produire des masques d'instances d'une qualité surprenante en utilisant uniquement des annotations de boîtes englobantes. Par exemple, sans utiliser aucune annotation de masque, avec un backbone ResNet-101 et un calendrier d'entraînement 3x, nous obtenons un AP de masque de 33,2 % sur la partition COCO test-dev (contre 39,1 % pour le modèle entièrement supervisé). Nos excellents résultats expérimentaux sur COCO et Pascal VOC indiquent que notre méthode réduit considérablement l'écart de performance entre la segmentation d'instances faiblement supervisée et entièrement supervisée.Le code est disponible à : https://git.io/AdelaiDet