il y a 2 mois

GLIGEN : Génération d'images à partir de texte avec ancrage en ensemble ouvert

Li, Yuheng ; Liu, Haotian ; Wu, Qingyang ; Mu, Fangzhou ; Yang, Jianwei ; Gao, Jianfeng ; Li, Chunyuan ; Lee, Yong Jae

Résumé

Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont réalisé des avancées extraordinaires. Cependant, l'état actuel consiste à utiliser uniquement une entrée textuelle, ce qui peut limiter la contrôlabilité. Dans cette étude, nous proposons GLIGEN (Grounded-Language-to-Image Generation), une approche novatrice qui s'appuie sur et étend les fonctionnalités des modèles pré-entraînés existants de génération d'images à partir de texte en leur permettant également d'être conditionnés par des entrées d'ancrage. Pour préserver le vaste savoir conceptuel du modèle pré-entraîné, nous gelons tous ses poids et injectons les informations d'ancrage dans de nouvelles couches entraînables via un mécanisme piloté. Notre modèle réalise une génération d'images à partir de texte ancré dans le monde ouvert avec des entrées conditionnelles de légende et de boîte englobante, et sa capacité d'ancrage se généralise bien aux nouvelles configurations spatiales et concepts. Les performances en zero-shot de GLIGEN sur COCO et LVIS surpassent largement celles des baselines supervisées existantes pour la génération d'images à partir de disposition.