Pontage entre l'interaction de la région de recherche et le modèle pour le suivi RGB-T

Le suivi RGB-T vise à exploiter l’effet synergique et complémentaire mutuel entre les modalités RGB et TIR afin d’améliorer le processus de suivi dans diverses scénarios, où l’interaction inter-modale constitue le composant clé. Certaines méthodes précédentes concatènent directement les caractéristiques des régions de recherche RGB et TIR pour effectuer un processus d’interaction grossier, introduisant ainsi des bruits de fond redondants. D’autres approches échantillonnent des boîtes candidates à partir des cadres de recherche et appliquent diverses stratégies de fusion sur des paires isolées de boîtes RGB et TIR, ce qui limite l’interaction inter-modale à des régions locales et entraîne une modélisation insuffisante du contexte. Pour atténuer ces limitations, nous proposons un nouveau module appelé Template-Bridged Search region Interaction (TBSI), qui utilise les modèles comme médiateurs pour relier l’interaction inter-modale entre les régions de recherche RGB et TIR en regroupant et en redistribuant les contextes pertinents au sujet et à l’environnement. Les modèles initiaux sont également mis à jour grâce à des contextes multimodaux enrichis issus du médiateur. Notre module TBSI est intégré dans un squelette ViT pour une extraction conjointe des caractéristiques, un alignement entre recherche et modèle, ainsi qu’une interaction inter-modale. Des expériences étendues sur trois benchmarks populaires de suivi RGB-T démontrent que notre méthode atteint de nouveaux états de l’art. Le code est disponible à l’adresse suivante : https://github.com/RyanHTR/TBSI.