MSN : Réseau efficace de sélection de masques en ligne pour la segmentation d'instances vidéo

Dans ce travail, nous présentons une nouvelle solution pour la segmentation d’instances vidéo (Video Instance Segmentation, VIS), capable de générer automatiquement des masques de segmentation au niveau des instances, d’identifier la classe des objets et de les suivre au cours d’une séquence vidéo. Notre méthode améliore les masques issus des branches de segmentation et de propagation de manière en ligne grâce au réseau de sélection de masques (Mask Selection Network, MSN), limitant ainsi l’accumulation de bruit durant le suivi des masques. Nous proposons une conception efficace du MSN basée sur un réseau neuronal convolutif par patch. Ce réseau est capable de distinguer des différences très subtiles entre les masques et de sélectionner précisément les meilleurs masques parmi les candidats associés. En outre, nous exploitons la cohérence temporelle en traitant les séquences vidéo à la fois dans le sens direct et inverse, comme étape de post-traitement, afin de récupérer les objets perdus. La méthode proposée peut être appliquée pour adapter n’importe quelle méthode de segmentation d’objets vidéo au cadre de la VIS. Elle obtient un score de 49,1 mAP sur le défi YouTube-VIS 2021 et se classe troisième parmi plus de 30 équipes mondiales. Le code source sera disponible à l’adresse suivante : https://github.com/SHI-Labs/Mask-Selection-Networks.