Suivi RGBT par transformation avec des jetons multimodaux spatio-temporels

De nombreuses recherches en suivi RGBT se concentrent principalement sur la conception de la fusion modale, négligeant ainsi le traitement efficace des changements d'apparence de la cible. Bien que certaines approches aient introduit des cadres historiques ou fusionné et remplacé les modèles initiaux pour intégrer l'information temporelle, elles présentent le risque de perturber l'apparence originale de la cible et d'accumuler des erreurs au fil du temps. Pour atténuer ces limitations, nous proposons une nouvelle approche de suivi RGBT basée sur le Transformer, qui mélange des jetons multimodaux spatio-temporels issus des modèles multimodaux statiques et des régions de recherche multimodales dans le Transformer afin de gérer les changements d'apparence de la cible, pour un suivi RGBT robuste. Nous introduisons des jetons de modèle dynamique indépendants pour interagir avec la région de recherche, intégrant l'information temporelle pour traiter les changements d'apparence tout en conservant la participation des jetons de modèle statique initial dans le processus d'extraction conjointe des caractéristiques afin d'assurer la préservation des informations fiables sur l'apparence originale de la cible, ce qui évite les écarts causés par les mises à jour temporelles traditionnelles. Nous utilisons également des mécanismes d'attention pour renforcer les caractéristiques cibles des jetons multimodaux du modèle en incorporant des indices modaux supplémentaires, et faisons interagir les jetons de région de recherche multimodaux avec les jetons de modèle dynamique multimodaux via ces mécanismes d'attention, facilitant ainsi la transmission d'informations sur les changements cibles améliorés par le multimodal. Notre module est intégré dans le réseau neuronal principal du Transformer et hérite de l'extraction conjointe des caractéristiques, du couplage recherche-modèle et de l'interaction transmodale. Des expériences étendues sur trois jeux de données基准数据集 (benchmark datasets) montrent que notre approche maintient une performance compétitive par rapport aux autres algorithmes de suivi state-of-the-art tout en fonctionnant à 39,1 FPS.注:在法语中,“基准数据集”通常翻译为“jeux de données benchmark”,但为了保持术语的一致性和完整性,我在括号中标注了原文。