Caractéristiques de diffusion pour combler l'écart de domaine en segmentation sémantique

Les modèles de diffusion pré-entraînés ont démontré une capacité remarquable à générer des images dans une grande variété de scénarios, grâce à des prompts personnalisables, indiquant leur efficacité à capturer des caractéristiques universelles. Inspirés par ces résultats, notre étude explore l’utilisation du savoir implicite intégré dans les modèles de diffusion pour relever les défis de la segmentation sémantique trans-domaines. Ce travail examine une approche fondée sur des techniques d’échantillonnage et de fusion permettant d’exploiter de manière efficace les caractéristiques des modèles de diffusion. Nous proposons DIffusion Feature Fusion (DIFF), un noyau (backbone) conçu pour extraire et intégrer des représentations sémantiques pertinentes au travers du processus de diffusion. En tirant parti de la puissance de la génération d’images à partir de texte, nous introduisons un nouveau cadre d’entraînement permettant d’apprendre implicitement des connaissances a posteriori. À travers une évaluation rigoureuse dans le contexte de la segmentation sémantique généralisée aux domaines, nous démontrons que notre méthode surpasse les approches antérieures dans la réduction des écarts entre domaines distincts et atteint une performance de pointe (state-of-the-art, SOTA).