HyperAIHyperAI
il y a 2 mois

SipMask : Préservation de l'Information Spatiale pour une Segmentation Rapide d'Instances dans les Images et Vidéos

Jiale Cao; Rao Muhammad Anwer; Hisham Cholakkal; Fahad Shahbaz Khan; Yanwei Pang; Ling Shao
SipMask : Préservation de l'Information Spatiale pour une Segmentation Rapide d'Instances dans les Images et Vidéos
Résumé

Les approches de segmentation d'instances en une seule étape ont récemment gagné en popularité grâce à leur rapidité et leur simplicité, mais elles restent encore en retard en termes de précision par rapport aux méthodes en deux étapes. Nous proposons une méthode rapide de segmentation d'instances en une seule étape, appelée SipMask, qui préserve les informations spatiales spécifiques à chaque instance en séparant la prédiction du masque d'une instance en différentes sous-régions d'une boîte englobante détectée. Notre contribution principale est un nouveau module de préservation spatiale (SP) léger qui génère un ensemble distinct de coefficients spatiaux pour chaque sous-région au sein d'une boîte englobante, améliorant ainsi les prédictions de masques. Ce module permet également une délimitation précise des instances spatialement adjacentes. De plus, nous introduisons une perte de pondération d'alignement de masque et un schéma d'alignement de caractéristiques pour mieux corrélérer la prédiction de masques avec la détection d'objets. Sur COCO test-dev, notre SipMask surpasse les méthodes existantes en une seule étape. Par rapport à la méthode TensorMask en une seule étape de pointe, SipMask obtient un gain absolu de 1,0 % (AP du masque) tout en offrant un accélération quatre fois supérieure. En ce qui concerne les capacités temps réel, SipMask surpasse YOLACT avec un gain absolu de 3,0 % (AP du masque) dans des configurations similaires, tout en fonctionnant à une vitesse comparable sur une carte Titan Xp. Nous évaluons également notre SipMask pour la segmentation d'instances vidéo temps réel, obtenant des résultats prometteurs sur le jeu de données YouTube-VIS. Le code source est disponible à l'adresse suivante : https://github.com/JialeCao001/SipMask.

SipMask : Préservation de l'Information Spatiale pour une Segmentation Rapide d'Instances dans les Images et Vidéos | Articles de recherche récents | HyperAI