Suivi par Transformer

La corrélation joue un rôle fondamental dans le domaine du suivi visuel, en particulier dans les trackers récents basés sur le modèle Siamese. L’opération de corrélation constitue une méthode simple de fusion permettant de mesurer la similarité entre le modèle (template) et la région de recherche (search region). Toutefois, cette opération de corrélation est intrinsèquement un processus de correspondance linéaire locale, ce qui entraîne une perte d’information sémantique et une forte propension à converger vers des optima locaux, constituant potentiellement un goulot d’étranglement dans la conception d’algorithmes de suivi à haute précision. Existe-t-il une méthode de fusion de caractéristiques plus performante que la corrélation ? Pour répondre à cette question, s’inspirant de l’architecture Transformer, ce travail propose un nouveau réseau de fusion de caractéristiques basé sur l’attention, capable d’intégrer efficacement les informations du modèle et de la région de recherche à l’aide uniquement de mécanismes d’attention. Plus précisément, la méthode proposée intègre un module d’enrichissement du contexte propre (ego-context augment) fondé sur l’attention auto-attention, ainsi qu’un module d’enrichissement croisé (cross-feature augment) basé sur l’attention croisée. Enfin, nous introduisons une méthode de suivi basée sur Transformer (nommée TransT), qui repose sur un squelette d’extraction de caractéristiques de type Siamese, sur le mécanisme de fusion par attention conçu, ainsi que sur une tête de classification et de régression. Les expérimentations montrent que notre approche TransT obtient des résultats très prometteurs sur six jeux de données exigeants, en particulier sur les benchmarks à grande échelle LaSOT, TrackingNet et GOT-10k. Notre tracker fonctionne à environ 50 fps sur GPU. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/chenxin-dlut/TransT.