Command Palette
Search for a command to run...
Apprentissage de la cohérence positionnelle et cible pour la segmentation d'objets vidéo basée sur la mémoire
Apprentissage de la cohérence positionnelle et cible pour la segmentation d'objets vidéo basée sur la mémoire
Li Hu Peng Zhang Bang Zhang Pan Pan Yinghui Xu Rong Jin
Résumé
Ce travail étudie le problème de la segmentation d'objets vidéo semi-supervisée (VOS). De nombreuses études ont montré que les approches basées sur la mémoire peuvent être efficaces pour la segmentation d'objets vidéo. Ces méthodes reposent principalement sur des correspondances au niveau des pixels, tant spatiales que temporelles. La principale faiblesse des approches basées sur la mémoire est qu'elles ne prennent pas en compte l'ordre séquentiel entre les images et n'exploitent pas les connaissances au niveau de l'objet provenant de la cible. Pour remédier à cette limitation, nous proposons un cadre d'apprentissage de la cohérence positionnelle et ciblée pour la segmentation d'objets vidéo basée sur la mémoire, appelé LCM (Learn position and target Consistency). Ce cadre applique le mécanisme de mémoire pour récupérer les pixels globalement tout en apprenant la cohérence positionnelle pour une segmentation plus fiable. La réponse d'emplacement apprise améliore la discrimination entre la cible et les distracteurs. De plus, LCM introduit une relation au niveau de l'objet provenant de la cible afin de maintenir la cohérence ciblée, ce qui rend LCM plus robuste face aux erreurs de dérive. Les expériences montrent que notre méthode LCM atteint des performances de pointe sur les benchmarks DAVIS et YouTube-VOS. Nous avons également obtenu le premier rang dans le défi DAVIS 2020 pour la tâche de segmentation d'objets vidéo semi-supervisée (VOS).