MIC : Cohérence d'Image Masquée pour l'Adaptation de Domaine Améliorée par le Contexte

Dans l'adaptation de domaine non supervisée (UDA), un modèle formé sur des données sources (par exemple, synthétiques) est adapté aux données cibles (par exemple, réelles) sans accès à l'annotation des données cibles. La plupart des méthodes UDA précédentes ont du mal à traiter les classes qui présentent une apparence visuelle similaire dans le domaine cible, car aucune vérité terrain n'est disponible pour apprendre les légères différences d'apparence. Pour résoudre ce problème, nous proposons un module de Cohérence d'Image Masquée (MIC) afin d'améliorer l'UDA en apprenant les relations de contexte spatial du domaine cible comme indices supplémentaires pour une reconnaissance visuelle robuste. Le MIC impose la cohérence entre les prédictions d'images cibles masquées, où des patchs aléatoires sont omis, et les pseudo-étiquettes générées à partir de l'image complète par un enseignant utilisant une moyenne mobile exponentielle. Pour minimiser la perte de cohérence, le réseau doit apprendre à inférer les prédictions des régions masquées à partir de leur contexte. Grâce à son concept simple et universel, le MIC peut être intégré dans diverses méthodes UDA pour différentes tâches de reconnaissance visuelle telles que la classification d'images, la segmentation sémantique et la détection d'objets. Le MIC améliore considérablement les performances de pointe actuelles pour l'UDA synthétique-vers-réelle, jour-vers-nuit et clair-vers-météo défavorable. Par exemple, le MIC atteint une performance UDA inédite de 75,9 mIoU et 92,8 % sur GTA-to-Cityscapes et VisDA-2017 respectivement, ce qui représente une amélioration de +2,1 et +3,0 points de pourcentage par rapport à l'état antérieur de l'art. L'implémentation est disponible sur https://github.com/lhoyer/MIC.