Suivi RGBT Temporel Adaptatif avec Indicateur de Modalité

Le suivi RGBT est largement utilisé dans divers domaines tels que la robotique, le traitement de la surveillance et la conduite autonome. Les traceurs RGBT existants explorent pleinement les informations spatiales entre le modèle et la région de recherche, et localisent la cible en se basant sur les résultats d'appariement d'apparence. Cependant, ces traceurs RGBT ont une exploitation très limitée des informations temporelles, soit en ignorant ces informations, soit en les exploitant par l'échantillonnage et l'entraînement en ligne. Le premier cas peine à gérer les changements d'état de l'objet, tandis que le second néglige la corrélation entre les informations spatiales et temporelles. Pour atténuer ces limitations, nous proposons un nouveau cadre de suivi RGBT adaptatif temporel, nommé TATrack. TATrack dispose d'une structure bimodale spatio-temporelle et capture les informations temporelles par un modèle mis à jour en ligne, où la structure bimodale fait référence à l'extraction de caractéristiques multimodales et à l'interaction croisée modale pour le modèle initial et le modèle mis à jour en ligne respectivement. TATrack contribue à exploiter de manière exhaustive les informations spatio-temporelles et multimodales pour la localisation de la cible. De plus, nous concevons un mécanisme d'interaction spatio-temporelle (STI) qui relie les deux branches et permet une interaction croisée modale sur des échelles de temps plus longues. Des expériences approfondies sur trois benchmarks populaires de suivi RGBT montrent que notre méthode atteint des performances de pointe tout en fonctionnant à une vitesse en temps réel.