HyperAIHyperAI
il y a 8 jours

G2L : Une méthode d'alignement global-local pour la segmentation sémantique adaptative de domaine non supervisée

{Thi-Oanh Nguyen, Dinh Viet Sang, Kieu Dang Nam, Nguyen Viet Manh}
Résumé

L’adaptation de domaine non supervisée (UDA) pour la segmentation sémantique vise à transférer des connaissances à partir d’un jeu de données source annoté au niveau pixel par pixel vers un jeu de données cible non étiqueté. Toutefois, les performances des méthodes UDA sont souvent affectées par le décalage de domaine, c’est-à-dire la différence entre les distributions de caractéristiques des deux domaines. Plusieurs tentatives ont été faites pour aligner ces distributions au niveau de l’image, de manière marginale. Toutefois, en raison du décalage de domaine au niveau des catégories — un phénomène où les caractéristiques profondes extraites à partir de différentes catégories dans le domaine cible ne sont pas suffisamment séparables — de tels alignements globaux ne garantissent pas une bonne séparabilité des caractéristiques. En conséquence, les pseudo-étiquettes générées peuvent être bruitées, ce qui perturbe le processus d’apprentissage sur le domaine cible. Certaines méthodes récentes s’efforcent de désinfecter les pseudo-étiquettes en ligne en exploitant des informations catégorielles. Ce papier présente une nouvelle méthode UDA appelée alignement Global-vers-Local (G2L), qui utilise un entraînement adversarial à fort grain ainsi qu’une nouvelle transformation de Fourier chromatique pour traiter le décalage de domaine au niveau de l’image de manière globale. Ensuite, notre méthode aborde le décalage de domaine au niveau des catégories sous une perspective locale. Plus précisément, nous proposons une stratégie d’évaluation des catégories à queue longue, ainsi qu’une application de seuils de confiance dynamiques et de poids de priorité catégoriels lors de la génération et du nettoyage des pseudo-étiquettes, afin de favoriser les catégories rares. Enfin, une distillation auto-supervisée est utilisée pour améliorer les résultats finaux de segmentation. Des expériences menées sur des benchmarks populaires, tels que GTA5 → Cityscapes et SYNTHIA → Cityscapes, montrent que notre méthode obtient une précision supérieure à celle des méthodes de pointe existantes.