il y a 17 jours

SeqFormer : Transformer séquentiel pour la segmentation d'instances vidéo

Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai

Résumé

Dans ce travail, nous présentons SeqFormer pour la segmentation d'instances vidéo. SeqFormer suit le principe des vision transformers en modélisant les relations entre instances au sein des cadres vidéo. Toutefois, nous observons qu'une requête d'instance autonome suffit à capturer une séquence temporelle d'instances dans une vidéo, tandis que les mécanismes d'attention doivent être appliqués indépendamment pour chaque cadre. Pour réaliser cela, SeqFormer localise une instance dans chaque cadre et agrège les informations temporelles afin d'apprendre une représentation puissante de l'instance au niveau de la vidéo, utilisée pour prédire dynamiquement les masques sur chaque cadre. Le suivi d'instances est ainsi obtenu naturellement, sans nécessiter de branches de suivi ni de post-traitements. Sur YouTube-VIS, SeqFormer atteint un score AP de 47,4 avec un squelette ResNet-50 et de 49,0 avec un squelette ResNet-101, sans aucune optimisation supplémentaire. Ces résultats dépassent significativement les performances précédentes de l'état de l'art respectivement de 4,6 et 4,4 points. En outre, en intégrant récemment le transformer Swin, SeqFormer atteint un AP bien plus élevé de 59,3. Nous espérons que SeqFormer deviendra une base solide pour stimuler la recherche future en segmentation d'instances vidéo, tout en progressant dans ce domaine grâce à un modèle plus robuste, précis et élégant. Le code est disponible à l'adresse suivante : https://github.com/wjf5203/SeqFormer.