HyperAIHyperAI

Command Palette

Search for a command to run...

Du texte au masque : Localisation d'entités à l'aide de l'attention des modèles de diffusion texte-image

Changming Xiao Qi Yang Feng Zhou Changshui Zhang

Résumé

Les modèles de diffusion ont révolutionné le domaine de la génération d’images à partir de texte ces derniers temps. La manière unique de fusionner les informations textuelles et visuelles leur confère une capacité remarquable à produire des images fortement corrélées au texte d’entrée. D’un autre point de vue, ces modèles génératifs révèlent des indices quant à la corrélation précise entre les mots et les pixels. Dans ce travail, nous proposons une méthode simple mais efficace pour exploiter le mécanisme d’attention présent dans le réseau de débruitage des modèles de diffusion text-image. Sans nécessiter de ré-entraînement ni d’optimisation au moment de l’inférence, il devient possible d’obtenir directement un ancrage sémantique des phrases. Nous évaluons notre méthode sur les jeux de données Pascal VOC 2012 et Microsoft COCO 2014 dans un cadre de segmentation sémantique faiblement supervisée, où elle obtient des performances supérieures à celles des méthodes précédentes. En outre, la corrélation mot-pixel ainsi extraite s’avère généralisable aux embeddings textuels appris par des méthodes de génération personnalisées, nécessitant uniquement quelques ajustements mineurs. Pour valider cette découverte, nous introduisons une nouvelle tâche pratique appelée « segmentation d’image référentielle personnalisée », accompagnée d’un nouveau jeu de données. Des expériences menées dans diverses situations démontrent les avantages de notre méthode par rapport à des baselines puissantes sur cette tâche. En résumé, notre travail révèle une nouvelle voie pour extraire les connaissances multimodales riches et implicites contenues dans les modèles de diffusion, afin d’améliorer la segmentation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp