HyperAIHyperAI
il y a 16 jours

Libérer le potentiel du modèle de diffusion dans la segmentation sémantique en few-shot

Muzhi Zhu, Yang Liu, Zekai Luo, Chenchen Jing, Hao Chen, Guangkai Xu, Xinlong Wang, Chunhua Shen
Libérer le potentiel du modèle de diffusion dans la segmentation sémantique en few-shot
Résumé

Le modèle de diffusion a non seulement obtenu des résultats remarquables dans le domaine de la génération d’images, mais a également démontré son potentiel en tant que méthode de pré-entraînement efficace exploitant des données non étiquetées. Inspirés par les capacités prometteuses du modèle de diffusion en matière de correspondance sémantique et de segmentation à vocabulaire ouvert, nous menons une étude sur l’utilisation du modèle de diffusion latent pour la segmentation sémantique en peu d’exemples (few-shot semantic segmentation). Récemment, s’inspirant de la capacité d’apprentissage in-context des grands modèles linguistiques, la segmentation en peu d’exemples s’est transformée en tâche de segmentation in-context, devenant un élément clé dans l’évaluation des modèles généralistes de segmentation. Dans ce contexte, nous nous concentrons sur la segmentation sémantique en peu d’exemples, établissant ainsi une base solide pour le développement futur d’un modèle généraliste de segmentation fondé sur la diffusion. Notre première priorité consiste à comprendre comment favoriser l’interaction entre l’image de requête et l’image de support, ce qui nous a conduit à proposer une méthode de fusion des vecteurs clé-valeur (KV fusion) dans le cadre de l’attention auto-associative. Par la suite, nous approfondissons l’optimisation de l’infusion d’informations provenant du masque de support, tout en réévaluant de manière critique la manière de fournir une supervision raisonnable à partir du masque de requête. Sur la base de cette analyse, nous proposons un cadre simple et efficace, nommé DiffewS, qui préserve au maximum la structure générative originale du modèle de diffusion latent et exploite efficacement les connaissances pré-entraînées. Les résultats expérimentaux montrent que notre méthode surpasser de manière significative les modèles les plus avancés (SOTA) précédents dans plusieurs configurations.

Libérer le potentiel du modèle de diffusion dans la segmentation sémantique en few-shot | Articles de recherche récents | HyperAI