HyperAIHyperAI
il y a 17 jours

Détection d'objets multimodale par commutation de canaux et attention spatiale

{Zheng Liu, Erik Blasch, Jozsef Hamari, Junchi Bin, Yue Cao}
Détection d'objets multimodale par commutation de canaux et attention spatiale
Résumé

La détection d'objets multimodale a suscité un intérêt croissant ces dernières années, car les informations propres à différentes modalités peuvent se compléter mutuellement, améliorant ainsi efficacement la précision et la stabilité du modèle de détection. Toutefois, par rapport au traitement d'entrées issues d'une seule modalité, la fusion d'informations issues de plusieurs modalités peut entraîner une augmentation significative de la complexité computationnelle du modèle, compromettant ainsi son efficacité. Il est donc essentiel de concevoir soigneusement le module de fusion multimodale afin d’améliorer les performances du modèle de détection tout en maintenant une consommation de ressources computationnelles faible. Dans cet article, nous proposons un nouveau module de fusion léger capable de fusionner efficacement les entrées issues de différentes modalités grâce à une commutation de canaux et à une attention spatiale (CSSA, Channel Switching and Spatial Attention). L’efficacité et la généralisabilité de ce module ont été évaluées sur deux jeux de données multimodales publiques, LLVIP et FLIR, comprenant tous deux des paires d’images infrarouges (IR) et visibles (RGB). Les expérimentations montrent que le module CSSA proposé permet d’améliorer substantiellement la précision de la détection d’objets multimodale sans nécessiter de ressources computationnelles excessives.

Détection d'objets multimodale par commutation de canaux et attention spatiale | Articles de recherche récents | HyperAI