Une approche d'adaptation de domaine curriculaire pour la segmentation sémantique des scènes urbaines

Au cours de la dernière demi-décennie, les réseaux neuronaux convolutifs (CNNs) ont remporté des succès notables dans le domaine du découpage sémantique, l'une des tâches centrales dans de nombreuses applications telles que la conduite autonome et la réalité augmentée. Cependant, l'entraînement des CNNs nécessite une quantité considérable de données, qui sont difficiles à collecter et fastidieuses à annoter. Les progrès récents en infographie permettent désormais d'entraîner les CNNs sur des images synthétiques photoréalistes avec des annotations générées par ordinateur. Malgré cela, le décalage entre les images réelles et les données synthétiques entrave les performances des modèles. Nous proposons donc une approche d'apprentissage par programme progressif visant à minimiser ce décalage de domaine dans le découpage sémantique des scènes urbaines. L'adaptation de domaine par programme progressif résout d'abord des tâches simples pour inférer les propriétés nécessaires du domaine cible ; en particulier, la première tâche consiste à apprendre les distributions globales des labels sur les images et les distributions locales sur les superpixels de repères. Ces distributions sont faciles à estimer car les images de scènes urbaines présentent des particularités fortes (par exemple, la taille et les relations spatiales des bâtiments, rues, voitures, etc.). Nous entraînons ensuite un réseau de segmentation tout en régularisant ses prédictions dans le domaine cible pour qu'elles suivent ces propriétés inférées. Dans nos expériences, notre méthode surpassait les méthodes de base sur deux jeux de données et deux réseaux de base. Nous rapportons également des études abrégées exhaustives concernant notre approche.