Sélection et propagation de masques pour la segmentation non supervisée d'objets dans les vidéos

Dans ce travail, nous proposons une nouvelle approche pour la segmentation d'objets vidéo non supervisée, capable de générer automatiquement des masques de segmentation au niveau des instances pour les objets saillants et de les suivre tout au long d'une vidéo. Nous traitons efficacement les problèmes présents dans les méthodes existantes, tels que le dérive lors de la propagation temporelle, du suivi et de l'ajout d'objets nouveaux. À cette fin, nous introduisons une idée originale visant à améliorer les masques de manière en ligne en utilisant un ensemble de critères dont la tâche est d'évaluer la qualité des masques. Nous proposons également une nouvelle méthode d'évaluation de la qualité des masques basée sur un réseau neuronal appelé Selector Net. Ce réseau est entraîné de manière à généraliser efficacement sur diverses bases de données. La méthode proposée permet de limiter le bruit accumulé au fil de la vidéo, obtenant ainsi des résultats de pointe sur le jeu de données Davis 2019 pour le défi non supervisé, avec une moyenne J&F de 61,6 %. Nous avons également testé notre approche sur d'autres jeux de données tels que FBMS et SegTrack V2, où elle se distingue ou se compare favorablement aux autres méthodes existantes.