HyperAIHyperAI
il y a 11 jours

Traduction, Échelle et Rotation : L'alignement cross-modale rencontre la détection de véhicules RGB-Infrarouge

Maoxun Yuan, Yinyan Wang, Xingxing Wei
Traduction, Échelle et Rotation : L'alignement cross-modale rencontre la détection de véhicules RGB-Infrarouge
Résumé

L’intégration de données multispectrales dans la détection d’objets, en particulier des images visibles et infrarouges, a suscité un intérêt croissant ces dernières années. Étant donné que les images visibles (RGB) et infrarouges (IR) fournissent des informations complémentaires pour faire face aux variations d’éclairage, ces paires d’images sont largement utilisées dans divers domaines, tels que la détection de piétons multispectrale, le comptage de foules RGB-IR, ou encore la détection d’objets saillants RGB-IR. Contrairement aux images RGB-IR naturelles, nous constatons que la détection dans les images aériennes RGB-IR est affectée par des problèmes de mauvaise alignement faible entre modalités, se manifestant par des écarts en position, en taille et en angle pour le même objet. Dans cet article, nous nous concentrons principalement sur le défi posé par ce mauvais alignement faible entre modalités dans les images aériennes RGB-IR. Plus précisément, nous expliquons et analysons d’abord les causes de ce problème. Ensuite, nous proposons un module d’alignement Translation-Échelle-Rotation (TSRA), conçu pour corriger les cartes de caractéristiques issues de ces deux modalités. Ce module prédit les écarts entre les objets des deux modalités via un processus d’alignement, et utilise une stratégie de sélection de modalité (MS) afin d’améliorer les performances de l’alignement. Enfin, nous avons conçu un détecteur à deux flux d’alignement de caractéristiques (TSFADet), basé sur le module TSRA, pour la détection d’objets RGB-IR dans les images aériennes. Des expériences approfondies menées sur le jeu de données public DroneVehicle montrent que notre méthode réduit efficacement l’impact du mauvais alignement entre modalités et permet d’obtenir des résultats de détection robustes.

Traduction, Échelle et Rotation : L'alignement cross-modale rencontre la détection de véhicules RGB-Infrarouge | Articles de recherche récents | HyperAI