il y a 17 jours

DeVIS : Mettre en œuvre les Transformateurs Déformables pour la segmentation d'instances vidéo

Adrià Caelles, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé

Résumé

La segmentation d'instances vidéo (VIS) aborde conjointement la détection multi-objets, le suivi et la segmentation dans des séquences vidéo. Par le passé, les méthodes de VIS ont reflété la fragmentation de ces sous-tâches dans leur conception architecturale, manquant ainsi une solution intégrée. Récemment, les Transformers ont permis de reformuler l'ensemble de la tâche VIS comme un problème unique de prédiction d'ensembles. Toutefois, la complexité quadratique des méthodes basées sur les Transformers actuelles entraîne des temps d'entraînement longs, des exigences mémoire élevées et un traitement de cartes de caractéristiques à une seule échelle. L'attention déformable offre une alternative plus efficace, mais son application au domaine temporel ou à la tâche de segmentation n'a pas encore été explorée.Dans ce travail, nous présentons Deformable VIS (DeVIS), une méthode de VIS qui exploite l'efficacité et les performances des Transformers déformables. Pour raisonner conjointement sur toutes les sous-tâches de VIS sur plusieurs trames, nous introduisons une attention déformable multi-échelle temporelle avec des requêtes d'objets conscientes des instances. Nous proposons également un nouveau head de masque d'instance image et vidéo basé sur des caractéristiques multi-échelles, ainsi qu'un suivi par clips à plusieurs indices pour un traitement vidéo quasi en temps réel. DeVIS réduit à la fois les besoins en mémoire et les temps d'entraînement, tout en obtenant des résultats de pointe sur le jeu de données YouTube-VIS 2021 ainsi que sur le jeu de données exigeant OVIS.Le code est disponible à l'adresse suivante : https://github.com/acaelles97/DeVIS.