YOLACT++ : Une meilleure segmentation d'instances en temps réel

Nous présentons un modèle entièrement convolutionnel simple pour la segmentation d'instances en temps réel (> 30 images par seconde) qui obtient des résultats compétitifs sur MS COCO évalué sur une seule carte Titan Xp, ce qui est significativement plus rapide que toute autre approche de pointe précédente. De plus, nous obtenons ces résultats après avoir effectué l'entraînement sur une seule unité de traitement graphique (GPU). Nous réalisons cela en divisant la segmentation d'instances en deux sous-tâches parallèles : (1) générer un ensemble de masques prototypes et (2) prédire les coefficients de masque par instance. Ensuite, nous produisons des masques d'instances en combinant linéairement les prototypes avec les coefficients de masque. Nous constatons que, du fait que ce processus ne dépend pas du ré-échantillonnage, cette approche produit des masques de très haute qualité et présente une stabilité temporelle naturelle. De plus, nous analysons le comportement émergent de nos prototypes et montrons qu'ils apprennent à localiser les instances de manière invariante à la translation, malgré leur architecture entièrement convolutionnelle. Nous proposons également Fast NMS, une alternative directe qui est 12 ms plus rapide que le NMS standard tout en n'entraînant qu'une pénalité marginale de performance. Enfin, en intégrant des convolutions déformables dans le réseau principal, en optimisant la tête de prédiction avec des échelles et des rapports d'aspect d'ancre améliorés, et en ajoutant une branche innovante pour le recalage rapide des masques, notre modèle YOLACT++ peut atteindre 34,1 mAP sur MS COCO à 33,5 images par seconde, ce qui est assez proche des approches actuelles de pointe tout en fonctionnant toujours en temps réel.