Command Palette
Search for a command to run...
Apprentissage dual adversarial conscient de la cible et benchmark multi-scénarios multi-modalités pour la fusion infrarouge et visible en détection d'objets
Apprentissage dual adversarial conscient de la cible et benchmark multi-scénarios multi-modalités pour la fusion infrarouge et visible en détection d'objets
Jinyuan Liu Xin Fan Zhanbo Huang Guanyao Wu Risheng Liu Wei Zhong Zhongxuan Luo
Résumé
Cette étude aborde le problème de la fusion d’images infrarouges et visibles, qui présentent des apparences différentes pour la détection d’objets. Dans le but de générer une image de haute qualité visuelle, les approches précédentes ont cherché à identifier les éléments communs sous-jacents aux deux modalités et ont effectué la fusion dans cet espace commun, soit par optimisation itérative, soit à l’aide de réseaux profonds. Ces méthodes négligent toutefois le fait que les différences entre modalités, qui portent une information complémentaire, sont extrêmement importantes tant pour la fusion que pour la tâche ultérieure de détection. Ce papier propose une formulation d’optimisation bi-niveaux pour le problème conjoint de fusion et de détection, puis la déroule en un réseau d’apprentissage dual adversarial orienté vers la cible (TarDAL) pour la fusion, couplé à un réseau de détection couramment utilisé. Le réseau de fusion, composé d’un générateur et de deux discriminateurs, cherche à identifier les éléments communs tout en apprenant à partir des différences, préservant ainsi les informations structurelles des objets issues de l’image infrarouge et les détails texturaux provenant de l’image visible. En outre, nous avons conçu un système d’imagerie synchronisée doté de capteurs infrarouges et optiques calibrés, et recueilli actuellement la base de données la plus complète à ce jour, couvrant une large gamme de scénarios. Des expériences étendues sur plusieurs jeux de données publics ainsi que sur notre propre base de données démontrent que notre méthode produit non seulement des images fusionnées de qualité visuelle supérieure, mais aussi des résultats de détection avec un mAP supérieur aux approches les plus avancées de l’état de l’art.