HyperAIHyperAI
il y a 13 jours

Segmentation d'objets vidéo auto-supervisée par propagation de masque sensible au mouvement

Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
Segmentation d'objets vidéo auto-supervisée par propagation de masque sensible au mouvement
Résumé

Nous proposons une méthode d’appariement spatio-temporel auto-supervisée, nommée Motion-Aware Mask Propagation (MAMP), pour la segmentation d’objets vidéo. MAMP exploite la tâche de reconstruction d’images pour l’entraînement, sans nécessiter d’étiquetages manuels. Lors de l’inférence, MAMP extrait des caractéristiques à haute résolution à partir de chaque trame afin de constituer une banque de mémoire à partir de ces caractéristiques ainsi que des masques prédits des trames passées sélectionnées. Ensuite, MAMP propage les masques depuis la banque de mémoire vers les trames ultérieures grâce à un module d’appariement spatio-temporel sensible au mouvement, conçu spécifiquement pour gérer les scénarios à mouvement rapide et à correspondance à long terme. Les évaluations effectuées sur les jeux de données DAVIS-2017 et YouTube-VOS montrent que MAMP atteint des performances de pointe par rapport aux méthodes auto-supervisées existantes, avec une meilleure capacité de généralisation : une amélioration de 4,2 % en moyenne de l’indice J&F sur DAVIS-2017, et de 4,85 % sur les catégories non vues du jeu de données YouTube-VOS, par rapport au meilleur concurrent direct. De plus, MAMP se compare favorablement à de nombreuses méthodes supervisées de segmentation d’objets vidéo. Le code source est disponible à l’adresse suivante : https://github.com/bo-miao/MAMP.