HyperAIHyperAI
il y a 2 mois

Adaptateur bi-directionnel pour le suivi multi-modal

Bing Cao; Junliang Guo; Pengfei Zhu; Qinghua Hu
Adaptateur bi-directionnel pour le suivi multi-modal
Résumé

En raison du développement rapide de la vision par ordinateur, le suivi d'objets monocapteur (RGB) a connu des progrès significatifs ces dernières années. Cependant, compte tenu des limitations des capteurs d'imagerie uniques, les images multimodales (RGB, infrarouge, etc.) ont été introduites pour compenser cette insuffisance et permettre le suivi d'objets en tout temps dans des environnements complexes. Néanmoins, l'acquisition de données de suivi multimodal suffisantes est difficile et la modalité dominante varie avec l'environnement ouvert. Par conséquent, la plupart des techniques existantes échouent à extraire dynamiquement les informations complémentaires multimodales, ce qui entraîne des performances de suivi médiocres. Pour résoudre ce problème, nous proposons un nouveau modèle de suivi visuel multimodal basé sur un adaptateur bidirectionnel universel, permettant une stimulation croisée mutuelle entre plusieurs modalités. Notre modèle se compose d'un adaptateur bidirectionnel universel et de plusieurs branches d'encodeur spécifique à chaque modalité partageant les mêmes paramètres. Les encodeurs extraient les caractéristiques de chaque modalité séparément en utilisant un modèle pré-entraîné figé. Nous avons développé un adaptateur de caractéristiques légères simple mais efficace pour transférer les informations spécifiques à chaque modalité d'une modalité à une autre, réalisant ainsi une fusion adaptative des caractéristiques visuelles. En ajoutant moins de paramètres entraînables (0,32M), notre modèle atteint des performances de suivi supérieures comparées aux méthodes d'affinage complet et aux méthodes basées sur l'apprentissage par stimulation. Notre code est disponible : https://github.com/SparkTempest/BAT.

Adaptateur bi-directionnel pour le suivi multi-modal | Articles de recherche récents | HyperAI