SSTVOS : Transformers Spatio-temporels Épars pour la Segmentation d'Objets Vidéo

Dans cet article, nous présentons une approche basée sur les Transformers pour la segmentation d'objets dans les vidéos (VOS). Pour remédier aux problèmes d'accumulation d'erreurs et de scalabilité des travaux précédents, nous proposons une méthode VOS scalable et de bout en bout appelée Transformers Spatio-temporels Épars (SST). SST extrait des représentations par pixel pour chaque objet dans une vidéo en utilisant l'attention éparse sur les caractéristiques spatio-temporelles. Notre formulation basée sur l'attention pour la VOS permet à un modèle d'apprendre à porter son attention sur l'historique de plusieurs images et fournit un biais inductif approprié pour effectuer des calculs de correspondance nécessaires à la résolution de la segmentation de mouvement. Nous démontrons l'efficacité de l'approche basée sur l'attention par rapport aux réseaux récurrents dans le domaine spatio-temporel. Notre méthode obtient des résultats compétitifs sur YouTube-VOS et DAVIS 2017, avec une meilleure scalabilité et une plus grande robustesse face aux occultations par rapport à l'état de l'art. Le code est disponible à l'adresse suivante : https://github.com/dukebw/SSTVOS.