$\mathbf{C}^2$Former : Transformer Calibré et Complémentaire pour la Détection d'Objets RGB-Infrarouge

La détection d'objets sur des images visibles (RGB) et infrarouges (IR), en tant que solution émergente visant à faciliter une détection robuste pour des applications 24 heures sur 24, a suscité un intérêt croissant ces dernières années. Grâce à l’utilisation des images IR, les détecteurs d’objets ont gagné en fiabilité et robustesse dans les applications pratiques en exploitant conjointement les informations RGB-IR. Toutefois, les méthodes existantes souffrent encore de problèmes de désynchronisation entre modalités et d’imprécision dans la fusion des données. Étant donné que les transformateurs possèdent une puissante capacité à modéliser les corrélations par paires entre différentes caractéristiques, nous proposons dans cet article un nouveau transformateur, appelé $\mathrm{C}^2$Former, qui est à la fois calibré et complémentaire, afin de résoudre simultanément ces deux problèmes. Dans $\mathrm{C}^2$Former, nous avons conçu un module d’attention croisée inter-modalité (ICA) afin d’obtenir des caractéristiques calibrées et complémentaires en apprenant les relations d’attention croisée entre les modalités RGB et IR. Pour réduire le coût computationnel lié au calcul de l’attention globale dans ICA, un module de sélection adaptative des caractéristiques (AFS) est introduit afin de réduire la dimension des cartes de caractéristiques. Étant donné que $\mathrm{C}^2$Former opère dans le domaine des caractéristiques, il peut être intégré aux détecteurs d’objets RGB-IR existants via le réseau principal (backbone). Ainsi, deux détecteurs d’objets — un à une étape et un à deux étapes — incorporant notre $\mathrm{C}^2$Former ont été construits afin d’évaluer son efficacité et sa polyvalence. Des expériences étendues sur les jeux de données DroneVehicle et KAIST RGB-IR confirment que notre méthode permet d’exploiter pleinement les informations complémentaires RGB-IR et d’obtenir des résultats de détection robustes. Le code est disponible à l’adresse suivante : https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git.