Diffuser, Attentionner et Segmenter : une segmentation zéro-shot non supervisée utilisant Stable Diffusion

La génération de masques de segmentation de haute qualité à partir d’images constitue un problème fondamental en vision par ordinateur. Des recherches récentes ont exploré l’apprentissage supervisé à grande échelle afin de permettre la segmentation zéro-shot sur pratiquement n’importe quel style d’image, ainsi que l’apprentissage non supervisé pour réaliser la segmentation sans annotations denses. Toutefois, concevoir un modèle capable de segmenter n’importe quel objet de manière zéro-shot, sans aucune annotation, reste un défi majeur. Dans cet article, nous proposons d’utiliser les couches d’attention auto-associative des modèles de diffusion stable afin d’atteindre cet objectif, car le modèle pré-entraîné de diffusion stable a déjà acquis des concepts inhérents aux objets au sein de ses couches d’attention. Plus précisément, nous introduisons un processus itératif simple mais efficace, basé sur la mesure de la divergence de Kullback-Leibler entre les cartes d’attention, pour fusionner ces dernières en masques de segmentation valides. La méthode proposée ne nécessite ni entraînement supplémentaire ni dépendance linguistique pour extraire des masques de segmentation de haute qualité à partir de n’importe quelle image. Sur le jeu de données COCO-Stuff-27, notre approche dépasse de 26 points absolus en précision par pixel et de 17 points en moyenne d’IoU la meilleure méthode précédente non supervisée zéro-shot. La page du projet est disponible à l’adresse suivante : \url{https://sites.google.com/view/diffseg/home}.