Command Palette
Search for a command to run...
GLIGEN : Génération d'images à partir de texte avec ancrage en ensemble ouvert
GLIGEN : Génération d'images à partir de texte avec ancrage en ensemble ouvert
Yuheng Li¹§, Haotian Liu¹§, Qingyang Wu², Fangzhou Mu¹, Jianwei Yang³, Jianfeng Gao³, Chunyuan Li³¶, Yong Jae Lee¹¶
Résumé
Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont réalisé des avancées extraordinaires. Cependant, l'état actuel consiste à utiliser uniquement une entrée textuelle, ce qui peut limiter la contrôlabilité. Dans cette étude, nous proposons GLIGEN (Grounded-Language-to-Image Generation), une approche novatrice qui s'appuie sur et étend les fonctionnalités des modèles pré-entraînés existants de génération d'images à partir de texte en leur permettant également d'être conditionnés par des entrées d'ancrage. Pour préserver le vaste savoir conceptuel du modèle pré-entraîné, nous gelons tous ses poids et injectons les informations d'ancrage dans de nouvelles couches entraînables via un mécanisme piloté. Notre modèle réalise une génération d'images à partir de texte ancré dans le monde ouvert avec des entrées conditionnelles de légende et de boîte englobante, et sa capacité d'ancrage se généralise bien aux nouvelles configurations spatiales et concepts. Les performances en zero-shot de GLIGEN sur COCO et LVIS surpassent largement celles des baselines supervisées existantes pour la génération d'images à partir de disposition.