Segmentation d'instances vidéo basée sur des transformateurs à communication inter-images

Nous proposons une nouvelle solution end-to-end pour la segmentation d’instances vidéo (VIS) basée sur des transformateurs. Récemment, les approches par clip ont démontré des performances supérieures par rapport aux méthodes par cadre en exploitant des informations plus riches issues de plusieurs cadres consécutifs. Toutefois, les modèles précédents par clip nécessitent des ressources computationnelles et mémoire importantes pour assurer la communication entre cadres, ce qui limite leur faisabilité pratique. Dans ce travail, nous introduisons les Transformateurs à Communication Inter-cadres (IFC), qui réduisent considérablement la charge liée au transfert d’information entre cadres en codant efficacement le contexte contenu dans chaque clip d’entrée. Plus précisément, nous proposons d’utiliser des jetons mémoire concis comme moyen de transmettre l’information ainsi que de résumer la scène de chaque cadre. Les caractéristiques de chaque cadre sont enrichies et corrélées avec celles des autres cadres grâce à l’échange d’information entre des jetons mémoire précisément encodés. Nous validons notre méthode sur les derniers jeux de données de référence et obtenons des performances de pointe (AP de 44,6 sur l’ensemble de validation YouTube-VIS 2019 en inférence hors ligne), tout en offrant un temps d’exécution notablement rapide (89,4 FPS). Notre méthode peut également être appliquée à une inférence quasi-en temps réel, permettant le traitement vidéo en temps réel avec un léger retard. Le code source sera rendu disponible.