HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Détection d'objets multimodale par commutation de canaux et attention spatiale

{Zheng Liu Erik Blasch Jozsef Hamari Junchi Bin Yue Cao}

Détection d'objets multimodale par commutation de canaux et attention spatiale

Résumé

La détection d'objets multimodale a suscité un intérêt croissant ces dernières années, car les informations propres à différentes modalités peuvent se compléter mutuellement, améliorant ainsi efficacement la précision et la stabilité du modèle de détection. Toutefois, par rapport au traitement d'entrées issues d'une seule modalité, la fusion d'informations issues de plusieurs modalités peut entraîner une augmentation significative de la complexité computationnelle du modèle, compromettant ainsi son efficacité. Il est donc essentiel de concevoir soigneusement le module de fusion multimodale afin d’améliorer les performances du modèle de détection tout en maintenant une consommation de ressources computationnelles faible. Dans cet article, nous proposons un nouveau module de fusion léger capable de fusionner efficacement les entrées issues de différentes modalités grâce à une commutation de canaux et à une attention spatiale (CSSA, Channel Switching and Spatial Attention). L’efficacité et la généralisabilité de ce module ont été évaluées sur deux jeux de données multimodales publiques, LLVIP et FLIR, comprenant tous deux des paires d’images infrarouges (IR) et visibles (RGB). Les expérimentations montrent que le module CSSA proposé permet d’améliorer substantiellement la précision de la détection d’objets multimodale sans nécessiter de ressources computationnelles excessives.

Benchmarks

BenchmarkMéthodologieMétriques
multispectral-object-detection-on-flir-1ProbEn
mAP: 37.9%
mAP50: 75.5%
multispectral-object-detection-on-flir-1CSSA
mAP: 41.3%
mAP50: 79.2%
multispectral-object-detection-on-flir-1GAFF
mAP: 37.4%
mAP50: 74.6%
multispectral-object-detection-on-flir-1Halfway Fusion
mAP: 35.8%
pedestrian-detection-on-llvipCSSA
AP: 0.592
pedestrian-detection-on-llvipGAFF
AP: 0.558
pedestrian-detection-on-llvipHalfway Fusion
AP: 0.551
pedestrian-detection-on-llvipProbEn
AP: 0.515

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection d'objets multimodale par commutation de canaux et attention spatiale | Articles de recherche | HyperAI