Transformer Rencontre Suiveur : Exploiter le Contexte Temporel pour un Suivi Visuel Robuste

Dans le suivi d'objets vidéo, les cadres successifs contiennent des contextes temporels riches, largement ignorés par les méthodes de suivi existantes. Dans ce travail, nous relions les cadres vidéo individuels en exploitant les contextes temporels entre eux grâce à une architecture transformer, afin d'obtenir un suivi robuste des objets. Contrairement à l'utilisation classique du transformer dans les tâches de traitement du langage naturel, nous décomposons l'encodeur et le décodeur du transformer en deux branches parallèles, et les concevons soigneusement dans une architecture de suivi de type Siamese. L'encodeur transformer renforce les modèles cibles via une mise en avant des caractéristiques basée sur l'attention, ce qui favorise la génération d'un modèle de suivi de haute qualité. Le décodeur transformer propage les indices de suivi issus des modèles précédents vers le cadre courant, ce qui améliore le processus de recherche de l'objet. Notre cadre de suivi assisté par transformer est élégant et entraîné de manière end-to-end. Grâce au transformer proposé, une approche simple de correspondance Siamese parvient à surpasser les trackers les plus performants actuellement disponibles. En combinant notre transformer avec la dernière pipeline discriminative de suivi, notre méthode établit plusieurs nouveaux records d'état de l'art sur des benchmarks de suivi largement utilisés.