HyperAIHyperAI

Command Palette

Search for a command to run...

GLIGEN : Génération d'images à partir de texte avec ancrage en ensemble ouvert

Yuheng Li¹§, Haotian Liu¹§, Qingyang Wu², Fangzhou Mu¹, Jianwei Yang³, Jianfeng Gao³, Chunyuan Li³¶, Yong Jae Lee¹¶

Résumé

Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont réalisé des avancées extraordinaires. Cependant, l'état actuel consiste à utiliser uniquement une entrée textuelle, ce qui peut limiter la contrôlabilité. Dans cette étude, nous proposons GLIGEN (Grounded-Language-to-Image Generation), une approche novatrice qui s'appuie sur et étend les fonctionnalités des modèles pré-entraînés existants de génération d'images à partir de texte en leur permettant également d'être conditionnés par des entrées d'ancrage. Pour préserver le vaste savoir conceptuel du modèle pré-entraîné, nous gelons tous ses poids et injectons les informations d'ancrage dans de nouvelles couches entraînables via un mécanisme piloté. Notre modèle réalise une génération d'images à partir de texte ancré dans le monde ouvert avec des entrées conditionnelles de légende et de boîte englobante, et sa capacité d'ancrage se généralise bien aux nouvelles configurations spatiales et concepts. Les performances en zero-shot de GLIGEN sur COCO et LVIS surpassent largement celles des baselines supervisées existantes pour la génération d'images à partir de disposition.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp