il y a 17 jours

Transformateur Vision Économique en Temps pour la Segmentations d'Instances Vidéo

Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan

Résumé

Récemment, les vision transformers ont connu un succès considérable sur les tâches de reconnaissance visuelle au niveau des images. Afin de modéliser efficacement et efficacement l'information temporelle cruciale présente dans une séquence vidéo, nous proposons un Vision Transformer efficace dans le temps (TeViT) pour la segmentation d'instances vidéo (VIS). Contrairement aux méthodes précédentes basées sur les transformateurs pour la VIS, TeViT est quasi libre de convolution, comprenant un noyau de transformateur et une tête de segmentation d'instances vidéo basée sur des requêtes. À l'étape du noyau, nous introduisons un mécanisme de décalage de messager quasi sans paramètre pour une fusion précoce du contexte temporel. À l'étape de la tête, nous proposons un mécanisme d'interaction spatio-temporelle des requêtes partagées entre paramètres afin d'établir une correspondance un-à-un entre les instances vidéo et les requêtes. Ainsi, TeViT exploite pleinement à la fois les informations de contexte temporel au niveau des trames et au niveau des instances, tout en offrant une capacité de modélisation temporelle puissante avec un coût computationnel négligeable. Sur trois benchmarks de VIS largement utilisés — YouTube-VIS-2019, YouTube-VIS-2021 et OVIS — TeViT atteint des résultats de pointe tout en maintenant une vitesse d'inférence élevée, par exemple 46,6 AP à 68,9 FPS sur YouTube-VIS-2019. Le code est disponible à l'adresse suivante : https://github.com/hustvl/TeViT.