HyperAIHyperAI
il y a 2 mois

Transformateur de Fusion Multimodale pour la Détection d'Objets Multispectrale

Qingyun, Fang ; Dapeng, Han ; Zhaokui, Wang
Transformateur de Fusion Multimodale pour la Détection d'Objets Multispectrale
Résumé

Les paires d'images multispectrales peuvent fournir des informations combinées, rendant les applications de détection d'objets plus fiables et robustes dans le monde ouvert. Pour exploiter pleinement les différentes modalités, nous présentons dans cet article une approche simple mais efficace de fusion de caractéristiques inter-modales, nommée Cross-Modality Fusion Transformer (CFT). Contrairement aux travaux antérieurs basés sur les CNNs, notre réseau est guidé par le schéma du transformer, ce qui lui permet d'apprendre des dépendances à longue portée et d'intégrer des informations contextuelles globales lors de l'extraction des caractéristiques. Plus important encore, en utilisant l'auto-attention du transformer, le réseau peut naturellement réaliser la fusion simultanée intra-modale et inter-modale, capturant robustement les interactions latentes entre les domaines RGB et thermique, ce qui améliore considérablement les performances de la détection d'objets multispectraux. De nombreuses expériences et études ablatives sur plusieurs jeux de données montrent que notre approche est efficace et atteint des performances de détection de pointe. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/DocF/multispectral-object-detection.

Transformateur de Fusion Multimodale pour la Détection d'Objets Multispectrale | Articles de recherche récents | HyperAI