Distillation de connaissance à travers les modalités pour la classification d'objets en vue aérienne multi-modale

Dans le cas de mauvaises conditions météorologiques ou d’éclairage faible, un seul capteur peut ne pas fournir suffisamment d’informations pour l’identification des objets. Contrairement aux images optiques traditionnelles, l’imagerie à synthèse d’ouverture (SAR, Synthetic Aperture Radar) présente des avantages significatifs, notamment la capacité à pénétrer dans le brouillard ou la fumée. Toutefois, les images SAR présentent une résolution faible et sont fortement affectées par un bruit de granulation (speckle) de haut niveau. Par conséquent, l’extraction de caractéristiques puissantes et robustes à partir de ces images reste un défi majeur. Dans ce travail, nous explorons si l’utilisation de plusieurs modalités d’imagerie peut améliorer les performances de détection d’objets. Nous proposons donc un cadre de distillation de connaissances croisées (CMKD, Cross Modality Knowledge Distillation), et étudions deux architectures de réseau différentes, nommées CMKD-s et CMKD-m, pour la tâche de classification d’objets. Plus précisément, CMKD-s transfère les informations capturées par les deux capteurs via une distillation de connaissances en ligne, permettant ainsi un partage de connaissances entre modalités et renforçant la robustesse du modèle de classification d’objets à vue aérienne. En outre, en exploitant un entraînement semi-supervisé amélioré, nous proposons une nouvelle méthode, CMKD-m, qui renforce le transfert mutuel de connaissances entre les modalités. À travers une évaluation quantitative, nous constatons que les approches CMKD-s et CMKD-m surpassent significativement la méthode sans transfert de connaissances sur le jeu de données de défi NTIRE2021 SAR-EO.