MiPa : Détection d'objets agnostique modale mixte infrarouge-visible

Dans des scénarios réels, l'utilisation de plusieurs modalités telles que la lumière visible (RGB) et l'infrarouge (IR) peut grandement améliorer les performances d'une tâche prédictive comme la détection d'objets (OD). L'apprentissage multimodal est une méthode courante pour exploiter ces modalités, où plusieurs encodeurs spécifiques à chaque modalité et un module de fusion sont utilisés pour améliorer les performances. Dans cet article, nous abordons une approche différente pour utiliser les modalités RGB et IR, où seul un encodeur visuel partagé observe une seule modalité ou l'autre. Ce cadre réaliste nécessite une empreinte mémoire plus faible et est plus adapté aux applications telles que la conduite autonome et la surveillance, qui s'appuient généralement sur des données RGB et IR. Cependant, lors de l'apprentissage d'un seul encodeur sur plusieurs modalités, une modalité peut dominer l'autre, entraînant des résultats de reconnaissance inégaux. Cette étude examine comment exploiter efficacement les modalités RGB et IR pour former un encodeur visuel OD basé sur un transformateur commun, tout en atténuant les effets du déséquilibre modale. Pour ce faire, nous introduisons une nouvelle technique d'entraînement appelée Mix Patches (MiPa), qui combine des patches des deux modalités avec un module agnostique par patch, afin d'apprendre une représentation commune des deux modalités. Nos expériences montrent que MiPa peut apprendre une représentation permettant d'obtenir des résultats compétitifs sur les benchmarks traditionnels RGB/IR tout en n'exigeant qu'une seule modalité lors de l'inférence. Notre code est disponible à : https://github.com/heitorrapela/MiPa.