Une histoire de deux caractéristiques : la diffusion stable complète DINO pour la correspondance sémantique zero-shot

Les modèles de diffusion text-to-image ont réalisé des avancées significatives dans la génération et l'édition d'images de haute qualité. Par conséquent, de nombreuses approches ont exploré la capacité des caractéristiques des modèles de diffusion à comprendre et traiter des images individuelles pour des tâches en aval, par exemple, la classification, la segmentation sémantique et la stylisation. Cependant, on connaît beaucoup moins ce que ces caractéristiques révèlent lorsqu'elles sont appliquées à plusieurs images et objets différents. Dans cette étude, nous exploitons les caractéristiques de Stable Diffusion (SD) pour l'analyse sémantique et la correspondance dense, et nous découvrons qu'avec un simple post-traitement, les caractéristiques SD peuvent performer quantitativement de manière similaire aux représentations de pointe (SOTA). De manière intéressante, l'analyse qualitative montre que les caractéristiques SD possèdent des propriétés très différentes par rapport aux caractéristiques d'apprentissage de représentation existantes, telles que DINOv2 récemment publié : alors que DINOv2 fournit des correspondances rares mais précises, les caractéristiques SD fournissent des informations spatiales de haute qualité mais parfois des correspondances sémantiques inexactes. Nous démontrons qu'une simple fusion de ces deux types de caractéristiques fonctionne étonnamment bien, et une évaluation zero-shot utilisant les plus proches voisins sur ces caractéristiques fusionnées offre une amélioration notable des performances par rapport aux méthodes d'avant-garde sur des jeux de données de référence tels que SPair-71k, PF-Pascal et TSS. Nous montrons également que ces correspondances peuvent permettre des applications intéressantes telles que le swap d'instances entre deux images.