HyperAIHyperAI
il y a 2 mois

Transformateur d'Attention à Modulation Croisée pour le Suivi RGBT

Yun Xiao; Jiacong Zhao; Andong Lu; Chenglong Li; Yin Lin; Bing Yin; Cong Liu
Transformateur d'Attention à Modulation Croisée pour le Suivi RGBT
Résumé

Les trackers RGBT basés sur les Transformers actuels obtiennent des avantages de performance remarquables en utilisant l'auto-attention pour extraire des caractéristiques unimodales et la co-attention pour améliorer l'interaction des caractéristiques multimodales et le calcul de corrélation entre le modèle et la recherche. Néanmoins, les calculs indépendants de corrélation entre la recherche et le modèle ignorent la cohérence entre les branches, ce qui peut entraîner des poids de corrélation ambigus et inappropriés. Cela non seulement limite la représentation des caractéristiques intramodales, mais nuit également à la robustesse de la co-attention pour l'interaction des caractéristiques multimodales et le calcul de corrélation entre le modèle et la recherche. Pour résoudre ces problèmes, nous proposons une nouvelle approche appelée Cross-modulated Attention Transformer (CAFormer), qui effectue la corrélation intramodale, l'interaction intermodale des caractéristiques et le calcul de corrélation entre le modèle et la recherche dans un modèle d'attention unifié, pour le suivi RGBT. Plus précisément, nous générons d'abord indépendamment des cartes de corrélation pour chaque modalité et les alimentons dans le module d'amélioration modulée par la corrélation conçu, en modulant les poids de corrélation inexactes en recherchant le consensus entre les modalités. Ce type de conception unifie les schémas d'auto-attention et de co-attention, ce qui non seulement atténue le calcul inexact des poids d'attention dans l'auto-attention, mais élimine également les calculs redondants introduits par un schéma supplémentaire de co-attention. De plus, nous proposons une stratégie collaborative d'élimination des jetons pour améliorer davantage l'efficacité et la précision du suivi. Des expériences étendues sur cinq benchmarks publics de suivi RGBT montrent que la performance du CAFormer proposé est exceptionnelle par rapport aux méthodes les plus avancées actuellement disponibles.