HyperAIHyperAI
il y a 17 jours

Appariement Cohérent en Contenu pour la Segmentation Sémantique Adaptative par Domaine

{Guoliang Kang, Yunchao Wei, Yi Yang, Wu Liu, Guangrui Li}
Appariement Cohérent en Contenu pour la Segmentation Sémantique Adaptative par Domaine
Résumé

Cet article étudie l’adaptation de la segmentation sémantique du domaine source synthétique vers le domaine cible réel. Contrairement aux nombreuses recherches antérieures qui visent principalement à développer des solutions d’alignement de domaine basées sur des adversaires, nous abordons cette tâche exigeante sous une nouvelle perspective, à savoir le matching sémantique cohérent (CCM, content-consistent matching). L’objectif du CCM est d’identifier les images synthétiques dont la distribution est proche de celle des images réelles dans le domaine cible, de manière à atténuer naturellement l’écart de domaine en utilisant uniquement les images synthétiques cohérentes sur le plan du contenu pour l’entraînement du modèle. Plus précisément, nous mettons en œuvre le CCM selon deux axes : le matching de disposition sémantique et le matching au niveau des pixels. Premièrement, nous utilisons toutes les images synthétiques du domaine source pour entraîner un modèle de segmentation initial, qui est ensuite employé pour générer des étiquettes de niveau pixel grossières sur les images non étiquetées du domaine cible. À partir de ces cartes d’étiquettes grossières (réelles) et précises (synthétiques), nous construisons des matrices de disposition sémantique selon les directions horizontale et verticale, puis effectuons un matching entre ces matrices afin d’identifier les images synthétiques présentant une disposition sémantique similaire aux images réelles. Deuxièmement, nous sélectionnons les étiquettes prédites avec une forte confiance afin de générer des embeddings de caractéristiques pour toutes les classes dans le domaine cible, puis réalisons un matching pixel par pixel sur les images synthétiques identifiées comme cohérentes sur le plan de la disposition, afin d’extraire les pixels cohérents sur le plan de l’apparence. Grâce au CCM proposé, seules les images synthétiques cohérentes sur le plan du contenu sont prises en compte pour l’apprentissage du modèle de segmentation, ce qui permet efficacement de réduire le biais de domaine causé par les images synthétiques dénuées de pertinence sémantique. Des expérimentations étendues sont menées sur deux tâches populaires d’adaptation de domaine : GTA5 → Cityscapes et SYNTHIA → Cityscapes. Nos résultats montrent des améliorations cohérentes par rapport aux méthodes de référence, et une performance supérieure aux états de l’art antérieurs.