Diffusion masquée en tant que modèle d'apprentissage de représentations auto-supervisé

Les modèles diffusifs probabilistes débruitants ont récemment fait preuve d’une performance générative de pointe et sont utilisés comme des apprenants puissants de représentations au niveau des pixels. Ce papier analyse la relation intrinsèque entre la capacité générative et l’aptitude à l’apprentissage de représentations propre aux modèles diffusifs. Nous proposons le modèle diffusif masqué (MDM), un apprenant de représentations auto-supervisé évolutif pour la segmentation sémantique, qui remplace le bruit gaussien additif classique des modèles diffusifs traditionnels par un mécanisme de masquage. Notre approche dépasse de manière convaincante les références précédentes, démontrant des progrès remarquables sur les tâches de segmentation sémantique d’images médicales et naturelles, notamment dans des scénarios à peu d’exemples.