PiPa : Apprentissage auto-supervisé pixel par pixel et patch par patch pour l'adaptation de domaine en segmentation sémantique

L'adaptation de domaine non supervisée (UDA) vise à améliorer la généralisation du modèle appris à d'autres domaines. Les connaissances invariantes au domaine sont transférées d'un modèle formé sur un domaine source étiqueté, par exemple un jeu vidéo, vers des domaines cibles non étiquetés, tels que des scénarios du monde réel, ce qui permet de réduire les coûts d'annotation. Les méthodes UDA existantes pour le découpage sémantique se concentrent généralement sur la minimisation des écarts inter-domaines à différents niveaux, par exemple au niveau des pixels, des caractéristiques et des prédictions, afin d'extraire des connaissances invariantes au domaine. Cependant, les principales connaissances intra-domaine, telles que les corrélations contextuelles à l'intérieur d'une image, restent sous-exploitées.Dans une tentative pour combler cette lacune, nous proposons un cadre d'apprentissage auto-supervisé unifié au niveau des pixels et des patches, appelé PiPa, pour le découpage sémantique adaptatif aux domaines. Ce cadre facilite les corrélations pixel-par-pixel et la cohérence sémantique patch-par-patch face à différents contextes. Le cadre proposé exploite les structures inhérentes aux images intra-domaine, qui : (1) encourage explicitement l'apprentissage de caractéristiques discriminantes pixel-par-pixel avec une compacité intra-classe et une séparabilité inter-classe, et (2) stimule l'apprentissage robuste de caractéristiques identiques dans un patch face à différents contextes ou fluctuations.Des expériences approfondies vérifient l'efficacité de la méthode proposée, qui obtient une précision compétitive sur deux benchmarks UDA largement utilisés : 75,6 mIoU sur GTA vers Cityscapes et 68,2 mIoU sur Synthia vers Cityscapes. De plus, notre méthode est compatible avec d'autres approches UDA pour améliorer davantage les performances sans introduire de paramètres supplémentaires.