Fusion Améliorée par une Attention Explicite pour les Tâches de Perception RGB-Thermique

Récemment, la perception basée sur l'RGB-Thermique a connu des avancées significatives. Les informations thermiques fournissent des indices utiles lorsque les caméras visuelles sont confrontées à de mauvaises conditions d'éclairage, comme une faible luminosité et du brouillard. Cependant, comment fusionner efficacement les images RGB et les données thermiques reste un défi ouvert. Les travaux précédents impliquent des stratégies de fusion naïves telles que leur fusion au niveau de l'entrée, la concaténation de caractéristiques multimodales à l'intérieur des modèles, ou l'application d'attention à chaque modalité de données. Ces stratégies de fusion sont simples mais insuffisantes. Dans cet article, nous proposons une nouvelle méthode de fusion nommée Fusion Améliorée par une Attention Explicite (EAEF) qui tire pleinement parti de chaque type de données. Plus précisément, nous considérons les cas suivants : i) les données RGB et thermiques sont toutes deux disponibles, ii) seule l'une des modalités est disponible, et iii) aucune des modalités ne génère des caractéristiques discriminantes. L'EAEF utilise une branche pour améliorer l'extraction des caractéristiques dans les cas i) et iii), et une autre branche pour remédier aux représentations insuffisantes dans le cas ii). Les sorties des deux branches sont fusionnées pour former des caractéristiques complémentaires. En conséquence, la méthode de fusion proposée surpasses l'état de l'art avec une amélioration de 1,6 % en mIoU pour le découpage sémantique, 3,1 % en MAE pour la détection d'objets saillants, 2,3 % en mAP pour la détection d'objets, et 8,1 % en MAE pour le comptage de foule. Le code est disponible sur https://github.com/FreeformRobotics/EAEFNet.