Lutte contre les distractions de fond dans la segmentation d'objets vidéo

La segmentation semi-supervisée d'objets vidéo (VOS) vise à suivre de manière dense certains objets désignés dans des vidéos. L'un des principaux défis de cette tâche réside dans l'existence de distracteurs de fond qui ressemblent aux objets cibles. Nous proposons trois stratégies novatrices pour atténuer ces distracteurs : 1) un schéma de construction de modèles diversifiés spatialement et temporellement afin d'obtenir des propriétés généralisées des objets cibles ; 2) une fonction de score de distance apprenable pour exclure les distracteurs éloignés spatialement en exploitant la cohérence temporelle entre deux images consécutives ; 3) une augmentation par permutation et attachement (swap-and-attach) pour obliger chaque objet à avoir des caractéristiques uniques en fournissant des échantillons d'apprentissage contenant des objets entrelacés. Sur tous les jeux de données de référence publics, notre modèle atteint une performance comparable à celle des approches les plus avancées actuelles, même avec une performance en temps réel. Les résultats qualitatifs démontrent également la supériorité de notre approche par rapport aux méthodes existantes. Nous croyons que notre approche sera largement utilisée pour les futures recherches en VOS.