ProContEXT : Exploration d'un Transformateur de Contexte Progressif pour le Suivi

Le suivi d'objets visuels existant (VOT) ne prend en compte que la zone cible dans le premier cadre comme modèle. Cela entraîne inévitablement l'échec du suivi dans des scènes rapides et bondées, car il ne peut pas tenir compte des changements d'apparence de l'objet entre les cadres. Pour remédier à cela, nous avons repensé le cadre de suivi avec le ProContEXT (Progressive Context Encoding Transformer Tracker), qui exploite de manière cohérente les contextes spatiaux et temporels pour prédire les trajectoires de mouvement des objets. Plus précisément, ProContEXT utilise un module d'auto-attention sensible au contexte pour encoder les contextes spatiaux et temporels, affinant et mettant à jour les modèles statiques et dynamiques multi-échelles afin de réaliser un suivi précis progressif. Il explore la complémentarité entre les contextes spatiaux et temporels, ouvrant une nouvelle voie à la modélisation multi-contexte pour les traceurs basés sur les transformateurs. De plus, ProContEXT a révisé la technique de réduction des jetons (token pruning) pour diminuer la complexité computationnelle. Des expériences approfondies sur des ensembles de données de référence populaires tels que GOT-10k et TrackingNet démontrent que le ProContEXT proposé atteint des performances de pointe.