HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de Fusion Multimodale pour la Détection d'Objets Multispectrale

Fang Qingyun Han Dapeng Wang Zhaokui

Résumé

Les paires d'images multispectrales peuvent fournir des informations combinées, rendant les applications de détection d'objets plus fiables et robustes dans le monde ouvert. Pour exploiter pleinement les différentes modalités, nous présentons dans cet article une approche simple mais efficace de fusion de caractéristiques inter-modales, nommée Cross-Modality Fusion Transformer (CFT). Contrairement aux travaux antérieurs basés sur les CNNs, notre réseau est guidé par le schéma du transformer, ce qui lui permet d'apprendre des dépendances à longue portée et d'intégrer des informations contextuelles globales lors de l'extraction des caractéristiques. Plus important encore, en utilisant l'auto-attention du transformer, le réseau peut naturellement réaliser la fusion simultanée intra-modale et inter-modale, capturant robustement les interactions latentes entre les domaines RGB et thermique, ce qui améliore considérablement les performances de la détection d'objets multispectraux. De nombreuses expériences et études ablatives sur plusieurs jeux de données montrent que notre approche est efficace et atteint des performances de détection de pointe. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/DocF/multispectral-object-detection.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp