HyperAIHyperAI
il y a 2 mois

Suivi RGB-T par fusion croisée avec adaptateur bidirectionnel

Zhirong Zeng; Xiaotao Liu; Meng Sun; Hongyu Wang; Jing Liu
Suivi RGB-T par fusion croisée avec adaptateur bidirectionnel
Résumé

De nombreux trackers RGB-T de pointe ont obtenu des résultats remarquables grâce à la fusion modale. Cependant, ces trackers négligent souvent les informations temporelles ou échouent à les exploiter pleinement, ce qui entraîne un équilibre inefficace entre les informations multimodales et temporelles. Pour remédier à ce problème, nous proposons une nouvelle architecture de suivi RGB-T par fusion croisée (CFBT) qui garantit la pleine participation de plusieurs modalités dans le suivi tout en fusionnant dynamiquement les informations temporelles. L'efficacité de CFBT repose sur trois nouveaux modules de fusion d'informations spatiales et temporelles croisées : Fusion d'Augmentation Spatio-Temporelle Croisée (CSTAF), Fusion de Complémentarité Spatio-Temporelle Croisée (CSTCF) et Adaptateur Spatio-Temporel à Deux Flux (DSTA). CSTAF utilise un mécanisme d'attention croisée pour améliorer globalement la représentation des caractéristiques du modèle. CSTCF exploite l'information complémentaire entre différentes branches pour renforcer les caractéristiques de la cible et atténuer celles du fond. DSTA adopte le concept d'adaptateur pour fusionner adaptativement l'information complémentaire provenant de plusieurs branches au sein de la couche transformer, en utilisant la modalité RGB comme intermédiaire. Ces fusions ingénieuses de multiples perspectives ajoutent moins de 0,3 % des paramètres modaux totaux, mais elles permettent effectivement un équilibre efficace entre les informations multimodales et temporelles. Des expériences approfondies sur trois benchmarks populaires de suivi RGB-T montrent que notre méthode atteint une nouvelle performance d'état de l'art.

Suivi RGB-T par fusion croisée avec adaptateur bidirectionnel | Articles de recherche récents | HyperAI