il y a 2 mois

MambaVT : Modélisation contextuelle spatio-temporelle pour un suivi RGB-T robuste

Simiao Lai; Chang Liu; Jiawen Zhu; Ben Kang; Yang Liu; Dong Wang; Huchuan Lu

Résumé

Les algorithmes de suivi RGB-T existants ont réalisé des progrès remarquables en exploitant la capacité d'interaction globale et les modèles pré-entraînés étendus de l'architecture Transformer. Néanmoins, ces méthodes s'appuient principalement sur le couplage d'apparence entre paires d'images et font face aux défis inhérents à la complexité quadratique élevée du mécanisme d'attention, ce qui limite l'exploitation de l'information temporelle. Inspirés par le modèle récemment émergent Mamba d'espace d'état, reconnu pour ses capacités impressionnantes de modélisation de séquences longues et sa complexité computationnelle linéaire, cette étude propose innovamment un cadre basé uniquement sur Mamba (MambaVT) pour exploiter pleinement la modélisation contextuelle spatio-temporelle pour un suivi visible-thermique robuste. Plus précisément, nous concevons un composant d'intégration inter-images à longue portée pour s'adapter globalement aux variations d'apparence de la cible, et introduisons des indices historiques à court terme pour prédire les états ultérieurs de la cible en fonction des indices locaux de positionnement temporel. De nombreuses expériences montrent le potentiel significatif du modèle visuel Mamba pour le suivi RGB-T, avec MambaVT atteignant des performances de pointe sur quatre benchmarks majeurs tout en nécessitant des coûts computationnels inférieurs. Nous visons à ce que cette étude serve de ligne de base simple mais solide, stimulant les recherches futures dans ce domaine. Le code et les modèles pré-entraînés seront mis à disposition.