YOLACT : Segmentation d'instances en temps réel

Nous présentons un modèle entièrement convolutif simple pour la segmentation d'instances en temps réel, qui atteint une précision de 29,8 mAP sur MS COCO à une vitesse de 33,5 images par seconde (fps) évaluée sur une seule carte Titan Xp. Cette performance est significativement plus rapide que toute autre approche compétitive précédente. De plus, nous obtenons ce résultat après avoir formé le modèle sur une seule unité de traitement graphique (GPU). Nous réalisons cela en divisant la segmentation d'instances en deux sous-tâches parallèles : (1) la génération d'un ensemble de masques prototypes et (2) la prédiction des coefficients de masque par instance. Ensuite, nous produisons les masques d'instances en combinant linéairement les prototypes avec les coefficients de masque. Nous constatons que, du fait que ce processus ne dépend pas du ré-échantillonnage (repooling), cette approche génère des masques de très haute qualité et présente une stabilité temporelle naturelle. De plus, nous analysons le comportement émergent de nos prototypes et montrons qu'ils apprennent à localiser les instances de manière invariante à la translation, malgré leur architecture entièrement convolutive. Enfin, nous proposons également Fast NMS, une alternative directe au NMS standard qui est 12 ms plus rapide et n'entraîne qu'une pénalité marginale en termes de performance.