HyperAIHyperAI

Command Palette

Search for a command to run...

Génération d'images conditionnelle à texte hiérarchique avec les latents de CLIP

Aditya Ramesh* Prafulla Dhariwal* Alex Nichol* Casey Chu* Mark Chen

Résumé

Les modèles contrastifs comme CLIP ont démontré leur capacité à apprendre des représentations robustes d'images qui capturent à la fois la sémantique et le style. Pour exploiter ces représentations dans la génération d'images, nous proposons un modèle en deux étapes : une première étape consistant à générer un plongement d'image CLIP à partir d'une légende textuelle, et une deuxième étape consistant à générer une image conditionnée par ce plongement d'image. Nous montrons que la génération explicite de représentations d'images améliore la diversité des images avec une perte minimale en photoréalisme et en similarité de légende. Nos décodeurs conditionnés par les représentations d'images peuvent également produire des variations d'une image tout en préservant sa sémantique et son style, tout en modifiant les détails non essentiels absents de la représentation d'image. De plus, l'espace de plongement conjoint de CLIP permet des manipulations d'images guidées par le langage de manière zéro-shot (zero-shot). Nous utilisons des modèles de diffusion pour le décodeur et expérimentons avec des modèles autoregressifs et des modèles de diffusion pour la première étape, constatant que ces derniers sont plus efficaces sur le plan computationnel et produisent des échantillons de meilleure qualité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Génération d'images conditionnelle à texte hiérarchique avec les latents de CLIP | Articles | HyperAI