Segmentation sémantique adaptative au domaine avec estimation auto-supervisée de profondeur

L'adaptation de domaine pour la segmentation sémantique vise à améliorer la performance du modèle en présence d'un décalage de distribution entre le domaine source et le domaine cible. L'exploitation de la supervision provenant de tâches auxiliaires (telles que l'estimation de profondeur) peut potentiellement atténuer ce décalage, car de nombreuses tâches visuelles sont étroitement corrélées. Toutefois, une telle supervision n'est pas toujours disponible. Dans ce travail, nous exploitons l'orientation fournie par une estimation de profondeur auto-supervisée, disponible sur les deux domaines, afin de réduire l'écart entre les domaines. D'une part, nous proposons d'apprendre explicitement les corrélations entre les caractéristiques des tâches afin de renforcer les prédictions sémantiques sur le domaine cible grâce à l'estimation de profondeur cible. D'autre part, nous utilisons la discrépance entre les prédictions de profondeur issues des décodeurs de profondeur du domaine source et du domaine cible pour approximer la difficulté d'adaptation au niveau pixel. Cette difficulté d'adaptation, inférée à partir de la profondeur, est ensuite utilisée pour raffiner les pseudo-étiquettes de segmentation sémantique sur le domaine cible. La méthode proposée peut être facilement intégrée dans les cadres existants de segmentation. Nous démontrons l'efficacité de notre approche sur les tâches de référence SYNTHIA-to-Cityscapes et GTA-to-Cityscapes, où nous atteignons respectivement de nouvelles performances de pointe de $55,0\%$ et $56,6\%$. Notre code est disponible à l'adresse \url{https://qin.ee/corda}.