Du texte au masque : Localisation d'entités à l'aide de l'attention des modèles de diffusion texte-image

Les modèles de diffusion ont révolutionné le domaine de la génération d’images à partir de texte ces derniers temps. La manière unique de fusionner les informations textuelles et visuelles leur confère une capacité remarquable à produire des images fortement corrélées au texte d’entrée. D’un autre point de vue, ces modèles génératifs révèlent des indices quant à la corrélation précise entre les mots et les pixels. Dans ce travail, nous proposons une méthode simple mais efficace pour exploiter le mécanisme d’attention présent dans le réseau de débruitage des modèles de diffusion text-image. Sans nécessiter de ré-entraînement ni d’optimisation au moment de l’inférence, il devient possible d’obtenir directement un ancrage sémantique des phrases. Nous évaluons notre méthode sur les jeux de données Pascal VOC 2012 et Microsoft COCO 2014 dans un cadre de segmentation sémantique faiblement supervisée, où elle obtient des performances supérieures à celles des méthodes précédentes. En outre, la corrélation mot-pixel ainsi extraite s’avère généralisable aux embeddings textuels appris par des méthodes de génération personnalisées, nécessitant uniquement quelques ajustements mineurs. Pour valider cette découverte, nous introduisons une nouvelle tâche pratique appelée « segmentation d’image référentielle personnalisée », accompagnée d’un nouveau jeu de données. Des expériences menées dans diverses situations démontrent les avantages de notre méthode par rapport à des baselines puissantes sur cette tâche. En résumé, notre travail révèle une nouvelle voie pour extraire les connaissances multimodales riches et implicites contenues dans les modèles de diffusion, afin d’améliorer la segmentation.