Apprentissage multimodal faiblement aligné pour la détection piétonne multispectrale

La détection piétonne multispécrale a montré de grands avantages dans des conditions d'éclairage défavorables, car la modalité thermique fournit des informations complémentaires à l'image couleur. Cependant, les données multispéctrales réelles souffrent du problème de décalage de position, c'est-à-dire que les paires d'images couleur-thermique ne sont pas strictement alignées, ce qui fait qu'un même objet occupe des positions différentes selon les modalités. Dans les méthodes basées sur l'apprentissage profond, ce problème rend difficile la fusion des cartes de caractéristiques issues des deux modalités et perturbe l'entraînement du CNN. Dans cet article, nous proposons un nouveau modèle Aligned Region CNN (AR-CNN) pour traiter les données multispéctrales faiblement alignées de manière end-to-end. Premièrement, nous concevons un module d'Alignement des Caractéristiques Régionales (Region Feature Alignment - RFA) pour détecter le décalage de position et aligner de manière adaptative les caractéristiques régionales des deux modalités. Deuxièmement, nous présentons une nouvelle méthode de fusion multimagée qui effectue un réajustement pondéré des caractéristiques afin de sélectionner celles plus fiables et d'inhiber celles inutiles. En outre, nous proposons une nouvelle stratégie de jitter RoI (Region of Interest) pour améliorer la robustesse face aux motifs de décalage imprévus dus à différents appareils et paramètres système. Enfin, puisque notre méthode repose sur un nouveau type d'étiquetage : des boîtes englobantes qui correspondent à chaque modalité, nous avons manuellement recodifié le jeu de données KAIST en localisant les boîtes englobantes dans les deux modalités et en établissant leurs relations, fournissant ainsi une nouvelle annotation couplée KAIST-Paired Annotation. Des validations expérimentales approfondies ont été réalisées sur des jeux de données existants, démontrant l'efficacité et la robustesse de la méthode proposée. Le code source et les données sont disponibles à l'adresse suivante : https://github.com/luzhang16/AR-CNN.