CenterMask : Segmentation d'instances en temps réel sans ancrage

Nous proposons une segmentation d'instances simple et efficace sans ancres, appelée CenterMask, qui ajoute une nouvelle branche de masque guidé par l'attention spatiale (SAG-Mask) à un détecteur d'objets en une seule étape sans ancres (FCOS), dans la même lignée que Mask R-CNN. Intégrée au détecteur d'objets FCOS, la branche SAG-Mask prédit un masque de segmentation pour chaque boîte en utilisant une carte d'attention spatiale qui aide à se concentrer sur les pixels informatifs et à réduire le bruit. Nous présentons également des réseaux de base améliorés, VoVNetV2, avec deux stratégies efficaces : (1) une connexion résiduelle pour atténuer le problème d'optimisation des VoVNet plus grands \cite{lee2019energy} et (2) un Squeeze-Excitation efficace (eSE) pour traiter le problème de perte d'information des canaux du SE original. Avec SAG-Mask et VoVNetV2, nous concevons CenterMask et CenterMask-Lite, destinés respectivement aux modèles larges et petits. En utilisant le même backbone ResNet-101-FPN, CenterMask atteint 38,3 % de précision, surpassant toutes les méthodes précédentes de pointe tout en étant beaucoup plus rapide. CenterMask-Lite dépasse également l'état de l'art avec des marges importantes à plus de 35 images par seconde sur Titan Xp. Nous espérons que CenterMask et VoVNetV2 peuvent servir de solides baselines pour la segmentation d'instances en temps réel et les réseaux de base pour diverses tâches visuelles, respectivement. Le code est disponible sur https://github.com/youngwanLEE/CenterMask.