Segmentation sémantique à travers les domaines par transfert d'interrelations invariantes au domaine

L’utilisation de données synthétiques photo-réalistes pour entraîner des modèles de segmentation sémantique a suscité un intérêt croissant au cours des dernières années. Toutefois, le décalage de domaine entre les images synthétiques et les images réelles entraîne une baisse significative des performances lorsque le modèle entraîné sur des images synthétiques est directement appliqué à des scénarios du monde réel. Dans cet article, nous proposons une nouvelle approche d’adaptation de domaine, appelée Pivot Interaction Transfer (PIT). Notre méthode se concentre principalement sur la construction d’informations pivots, c’est-à-dire des connaissances communes partagées entre les domaines, afin de servir de pont favorisant l’adaptation d’un modèle de segmentation sémantique du domaine synthétique vers le domaine réel. Plus précisément, nous inférons d’abord les informations de catégorie au niveau de l’image pour les images cibles, lesquelles sont ensuite utilisées pour faciliter le transfert au niveau pixel, sous l’hypothèse que la relation d’interaction entre les informations de catégorie au niveau de l’image et les informations sémantiques au niveau pixel restent invariantes entre les domaines. À cette fin, nous proposons un mécanisme novateur d’expansion régionale à plusieurs niveaux, permettant une alignement simultané des informations au niveau de l’image et au niveau pixel. Des expériences approfondies sur l’adaptation à partir des jeux de données GTAV et SYNTHIA vers Cityscapes démontrent clairement l’efficacité supérieure de notre méthode.