SWEM : Vers la segmentation d'objets vidéo en temps réel avec une séquence pondérée d'espérance-maximisation

Les méthodes basées sur le matching, en particulier celles qui utilisent la mémoire espace-temps, sont nettement en avance sur les autres solutions dans le domaine de la segmentation semi-supervisée d'objets vidéo (VOS). Cependant, l'augmentation continue et la redondance des caractéristiques modèles entraînent une inférence inefficace. Pour atténuer ce problème, nous proposons un nouveau réseau Sequential Weighted Expectation-Maximization (SWEM) visant à réduire considérablement la redondance des caractéristiques mémoire. Contrairement aux méthodes précédentes qui ne détectaient que la redondance des caractéristiques entre les images, SWEM fusionne à la fois les caractéristiques similaires intra-images et inter-images en utilisant l'algorithme EM pondéré séquentiel. De plus, des poids adaptatifs pour les caractéristiques d'image confèrent à SWEM la flexibilité nécessaire pour représenter des échantillons difficiles, améliorant ainsi la discrimination des modèles. En outre, la méthode proposée maintient un nombre fixe de caractéristiques modèles en mémoire, garantissant ainsi une complexité d'inférence stable du système VOS. Des expériences approfondies sur les ensembles de données couramment utilisés DAVIS et YouTube-VOS ont confirmé l'efficacité élevée (36 FPS) et les performances exceptionnelles (84,3\% $\mathcal{J}\&\mathcal{F}$ sur l'ensemble de validation DAVIS 2017) de SWEM. Le code est disponible à : https://github.com/lmm077/SWEM.