HyperAIHyperAI

Command Palette

Search for a command to run...

Suivi RGB-T basé sur les transformateurs avec fusion de caractéristiques canal et spatiales

Yunfeng Li Bo Wang Ye Li

Résumé

Comment mieux fusionner les caractéristiques inter-modales est la question centrale du suivi RGB-T. Certaines méthodes précédentes fusionnent soit insuffisamment les caractéristiques RGB et TIR, soit dépendent d'intermédiaires contenant des informations provenant des deux modalités pour réaliser une interaction d'information inter-modale. La première approche ne tire pas pleinement parti du potentiel de l'utilisation uniquement des informations RGB et TIR du modèle ou de la région de recherche pour la fusion de canaux et de caractéristiques spatiales, tandis que la seconde manque d'une interaction directe entre le modèle et la zone de recherche, ce qui limite la capacité du modèle à exploiter pleinement l'information sémantique originale des deux modalités.Pour atténuer ces limitations, nous explorons comment améliorer les performances d'un Transformers visuel en utilisant une fusion directe des canaux et des caractéristiques spatiales inter-modales, et proposons CSTNet. CSTNet utilise ViT comme squelette principal et intègre des modules de fusion de canaux inter-modaux (CFM) et des modules de fusion de caractéristiques spatiales inter-modales (SFM) pour une interaction directe entre les caractéristiques RGB et TIR. Le CFM effectue un renforcement conjoint parallèle des canaux et un modèle conjoint multi-niveaux des caractéristiques spatiales RGB et TIR, puis somme les caractéristiques avant de les intégrer globalement avec les caractéristiques originales. Le SFM utilise l'attention croisée pour modéliser la relation spatiale des caractéristiques inter-modales, puis introduit un réseau convolutif feedforward pour l'intégration conjointe spatiale et canalique des caractéristiques multimodales.Nous réentrainons le modèle en utilisant les poids pré-entraînés de CSNet dans le modèle sans CFM ni SFM, et proposons CSTNet-small, qui permet une réduction de 36% des paramètres, une réduction de 24% des Flops, ainsi qu'un gain de vitesse de 50% avec une diminution minimale (1-2%) des performances. Des expériences exhaustives montrent que CSTNet atteint des performances d'état de l'art sur trois benchmarks publics de suivi RGB-T. Le code source est disponible à l'adresse suivante : https://github.com/LiYunfengLYF/CSTNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp