Généralisation par adaptation : extension de domaine basée sur la diffusion pour la segmentation sémantique généralisée aux domaines

Lorsqu’on applique des modèles, par exemple pour la segmentation sémantique, à des images très différentes des données d’entraînement, leur performance chute considérablement. Les méthodes d’adaptation de domaine cherchent à surmonter ce problème, mais nécessitent des échantillons provenant du domaine cible. Or, cela n’est pas toujours réalisable pour diverses raisons, ce qui rend les méthodes de généralisation de domaine particulièrement utiles, car elles ne requièrent aucune donnée réelle du domaine cible. Nous proposons une nouvelle méthode basée sur les diffusions, appelée extension de domaine par diffusion (DIDEX), qui utilise un modèle de diffusion pour générer un domaine cible pseudo avec des prompts textuels variés. Contrairement aux approches existantes, cette méthode permet de contrôler à la fois le style et le contenu des images générées, tout en introduisant une grande diversité. Dans un deuxième temps, nous entraînons un modèle généralisant en l’adaptant à ce domaine cible pseudo. Nous surpassons largement les approches précédentes sur plusieurs jeux de données et architectures, sans utiliser aucune donnée réelle. Pour la généralisation à partir de GTA5, nous améliorons la performance mIoU de l’état de l’art de 3,8 % en moyenne, et de 11,8 % pour SYNTHIA, marquant ainsi une avancée significative sur ces benchmarks. Le code est disponible à l’adresse suivante : https://github.com/JNiemeijer/DIDEX