DGInStyle : Segmentation sémantique généralisable au domaine à l'aide de modèles de diffusion d'images et de contrôle stylisé des sémantiques

Les grands modèles préentraînés de diffusion latente (LDM) ont démontré une capacité exceptionnelle à générer du contenu créatif, à s’adapter aux données utilisateur grâce à un fine-tuning à très faible nombre d’exemples, et à conditionner leur sortie à d’autres modalités, telles que des cartes sémantiques. Toutefois, peuvent-ils être utilisés comme générateurs de données à grande échelle, par exemple pour améliorer des tâches du pipeline de perception, comme la segmentation sémantique ? Nous examinons cette question dans le contexte de la conduite autonome, et y répondons de manière catégorique par l’affirmative. Nous proposons une chaîne de génération de données efficace, nommée DGInStyle. Premièrement, nous étudions le problème de spécialisation d’un LDM préentraîné pour une génération contrôlée sémantiquement dans un domaine restreint. Deuxièmement, nous introduisons une technique appelée Style Swap afin d’imprégner le puissant prior génératif avec un contrôle sémantique appris. Troisièmement, nous concevons une méthode de fusion latente multi-résolution pour surmonter le biais des LDM en faveur des objets dominants. Grâce à DGInStyle, nous générons un jeu de données diversifié d’images de scènes routières, entraînons un modèle de segmentation sémantique indépendant du domaine sur ce jeu, puis évaluons ce modèle sur plusieurs jeux de données populaires dédiés à la conduite autonome. Notre approche améliore de manière cohérente les performances de plusieurs méthodes de généralisation de domaine par rapport aux états de l’art précédents. Le code source et le jeu de données générés sont disponibles à l’adresse suivante : https://dginstyle.github.io.