Segmentation d'instance vidéo bout-en-bout avec des Transformers

La segmentation d'instances vidéo (VIS) est une tâche qui consiste à classifier, segmenter et suivre simultanément les instances d'objets d'intérêt dans une séquence vidéo. Les méthodes récentes développent généralement des pipelines sophistiqués pour aborder cette tâche. Dans cet article, nous proposons un nouveau cadre de segmentation d'instances vidéo fondé sur les Transformers, appelé VisTR, qui traite la tâche de VIS comme un problème direct de décodage parallèle en série, en bout à bout. Étant donné une séquence vidéo composée de plusieurs images comme entrée, VisTR produit directement, dans l'ordre, la séquence de masques correspondant à chaque instance présente dans la vidéo. Au cœur de cette approche réside une nouvelle stratégie efficace de correspondance et de segmentation des séquences d'instances, qui supervise et segmente les instances au niveau de la séquence dans sa globalité. VisTR adopte une perspective unifiée pour la segmentation d'instances et le suivi, basée sur l'apprentissage de similarité, ce qui simplifie considérablement l'ensemble du pipeline et le distingue fortement des approches existantes. Sans recourir à des améliorations superflues, VisTR atteint la vitesse la plus élevée parmi tous les modèles existants de VIS, tout en obtenant le meilleur résultat parmi les méthodes utilisant un seul modèle sur le jeu de données YouTube-VIS. Pour la première fois, nous démontrons un cadre de segmentation d'instances vidéo plus simple et plus rapide, fondé sur les Transformers, tout en atteignant une précision compétitive. Nous espérons que VisTR inspirera de futures recherches dans le domaine du compréhension vidéo.