Exploitation des modèles spatiaux-temps multimodaux pour le suivi d'objets vidéo

Le suivi multimodal a suscité une attention considérable en raison de sa capacité à surmonter efficacement les limitations inhérentes au suivi traditionnel RGB. Cependant, les traceurs multimodaux existants se concentrent principalement sur la fusion et l'amélioration des caractéristiques spatiales ou n'utilisent que des relations temporelles éparses entre les images vidéo. Ces approches ne tirent pas pleinement parti des corrélations temporelles dans les vidéos multimodales, ce qui rend difficile la capture des changements dynamiques et des informations de mouvement des cibles dans des scénarios complexes. Pour atténuer ce problème, nous proposons une approche unifiée de suivi spatial-temporel multimodal nommée STTrack. Contrairement aux paradigmes précédents qui se contentaient de mettre à jour les informations de référence, nous avons introduit un générateur d'état temporel (TSG) qui génère continuellement une séquence de jetons contenant des informations temporelles multimodales. Ces jetons d'information temporelle sont utilisés pour guider la localisation de la cible à l'état temporel suivant, établir des relations contextuelles à long terme entre les images vidéo et capturer la trajectoire temporelle de la cible. De plus, au niveau spatial, nous avons introduit les modules de fusion mamba et d'interaction de suppression du fond (BSI). Ces modules établissent un mécanisme en deux étapes pour coordonner l'interaction et la fusion d'informations entre les modalités. De nombreuses comparaisons sur cinq jeux de données de référence montrent que STTrack atteint des performances de pointe dans divers scénarios de suivi multimodal. Le code est disponible à : https://github.com/NJU-PCALab/STTrack.