SwinTrack : Une base simple et performante pour le suivi par transformationnels

Récemment, le modèle Transformer a été largement exploré dans le domaine du suivi visuel et a démontré des performances de pointe (SOTA). Toutefois, les travaux existants se concentrent principalement sur la fusion et l’amélioration des caractéristiques générées par les réseaux de neurones convolutifs (CNN). Le potentiel du Transformer dans l’apprentissage de représentations reste sous-exploité. Dans ce papier, nous visons à exploiter pleinement le pouvoir du Transformer en proposant un suiveur entièrement basé sur l’attention, simple mais efficace, nommé SwinTrack, intégré dans le cadre classique de Siamese. Plus précisément, tant l’apprentissage de représentations que la fusion de caractéristiques dans SwinTrack reposent sur l’architecture Transformer, permettant des interactions de caractéristiques plus efficaces que les approches basées uniquement sur CNN ou hybrides CNN-Transformer. Par ailleurs, pour renforcer davantage la robustesse, nous introduisons un nouveau type de token, appelé « motion token », qui encode la trajectoire historique de l’objet cible afin d’améliorer le suivi grâce à un contexte temporel. Ce motion token est léger, avec un coût computationnel négligeable, tout en apportant des gains significatifs. Dans nos expérimentations approfondies, SwinTrack dépasse les approches existantes sur plusieurs benchmarks. En particulier, sur le défi LaSOT, SwinTrack établit un nouveau record avec un score SUC de 0,713. Il atteint également des résultats SOTA sur d'autres benchmarks. Nous espérons que SwinTrack pourra servir de base solide pour les recherches futures sur le suivi basé sur Transformer. Les codes et les résultats sont disponibles à l’adresse suivante : https://github.com/LitingLin/SwinTrack.