HyperAIHyperAI
il y a 2 mois

Réseau de Transformers Unifié en Une Seule Étape pour une Traque RGB-T Efficace

Jianqiang Xia; DianXi Shi; Ke Song; Linna Song; XiaoLei Wang; Songchang Jin; Li Zhou; Yu Cheng; Lei Jin; Zheng Zhu; Jianan Li; Gang Wang; Junliang Xing; Jian Zhao
Réseau de Transformers Unifié en Une Seule Étape pour une Traque RGB-T Efficace
Résumé

La plupart des réseaux de suivi RGB-T existants extraient les caractéristiques modales de manière séparée, ce qui manque d'interaction et de guidage mutuel entre les modalités. Cette limitation réduit la capacité du réseau à s'adapter aux diverses apparences bimodales des cibles et aux relations dynamiques entre les modalités. De plus, le paradigme de suivi en trois étapes suivi par ces réseaux restreint considérablement la vitesse de suivi. Pour surmonter ces problèmes, nous proposons un réseau de suivi RGB-T unifié en une seule étape, nommé USTrack, qui combine les trois étapes susmentionnées dans un seul backbone ViT (Vision Transformer) avec une couche d'embedding bimodal grâce au mécanisme d'auto-attention. Grâce à cette structure, le réseau peut extraire des caractéristiques fusionnées du modèle et de la région de recherche sous l'influence mutuelle des modalités. En même temps, un modèle de relations est appliqué entre ces caractéristiques, permettant d'obtenir efficacement des caractéristiques fusionnées de la région de recherche avec une meilleure discrimination cible-fond pour la prédiction. De plus, nous introduisons un nouveau mécanisme de sélection de caractéristiques basé sur la fiabilité modale afin d'atténuer l'influence des modalités non valides pour la prédiction, améliorant ainsi davantage les performances de suivi. Des expériences approfondies sur trois benchmarks populaires de suivi RGB-T montrent que notre méthode atteint une nouvelle performance state-of-the-art tout en maintenant la vitesse d'inférence la plus rapide à 84,2 FPS. En particulier, le MPR/MSR sur les sous-ensembles court terme et long terme du jeu de données VTUAV a augmenté respectivement de 11,1 % / 11,7 % et 11,3 % / 9,7 %.

Réseau de Transformers Unifié en Une Seule Étape pour une Traque RGB-T Efficace | Articles de recherche récents | HyperAI