Suivi RGB-T basé sur les transformateurs avec fusion de caractéristiques canal et spatiales

Comment mieux fusionner les caractéristiques inter-modales est la question centrale du suivi RGB-T. Certaines méthodes précédentes fusionnent soit insuffisamment les caractéristiques RGB et TIR, soit dépendent d'intermédiaires contenant des informations provenant des deux modalités pour réaliser une interaction d'information inter-modale. La première approche ne tire pas pleinement parti du potentiel de l'utilisation uniquement des informations RGB et TIR du modèle ou de la région de recherche pour la fusion de canaux et de caractéristiques spatiales, tandis que la seconde manque d'une interaction directe entre le modèle et la zone de recherche, ce qui limite la capacité du modèle à exploiter pleinement l'information sémantique originale des deux modalités.Pour atténuer ces limitations, nous explorons comment améliorer les performances d'un Transformers visuel en utilisant une fusion directe des canaux et des caractéristiques spatiales inter-modales, et proposons CSTNet. CSTNet utilise ViT comme squelette principal et intègre des modules de fusion de canaux inter-modaux (CFM) et des modules de fusion de caractéristiques spatiales inter-modales (SFM) pour une interaction directe entre les caractéristiques RGB et TIR. Le CFM effectue un renforcement conjoint parallèle des canaux et un modèle conjoint multi-niveaux des caractéristiques spatiales RGB et TIR, puis somme les caractéristiques avant de les intégrer globalement avec les caractéristiques originales. Le SFM utilise l'attention croisée pour modéliser la relation spatiale des caractéristiques inter-modales, puis introduit un réseau convolutif feedforward pour l'intégration conjointe spatiale et canalique des caractéristiques multimodales.Nous réentrainons le modèle en utilisant les poids pré-entraînés de CSNet dans le modèle sans CFM ni SFM, et proposons CSTNet-small, qui permet une réduction de 36% des paramètres, une réduction de 24% des Flops, ainsi qu'un gain de vitesse de 50% avec une diminution minimale (1-2%) des performances. Des expériences exhaustives montrent que CSTNet atteint des performances d'état de l'art sur trois benchmarks publics de suivi RGB-T. Le code source est disponible à l'adresse suivante : https://github.com/LiYunfengLYF/CSTNet.