HyperAIHyperAI

Command Palette

Search for a command to run...

Swinv2-Imagen : Modèles de diffusion à transformer vision hiérarchique pour la génération d’images à partir de texte

Ruijun Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan Bai

Résumé

Récemment, les modèles de diffusion se sont révélés extrêmement performants dans les tâches de synthèse d’images à partir de texte, ouvrant ainsi de nouvelles perspectives de recherche dans le domaine de la génération d’images. Google Imagen suit cette tendance et dépasse DALL-E 2 pour devenir le meilleur modèle de génération d’images à partir de texte. Toutefois, Imagen utilise uniquement un modèle linguistique T5 pour le traitement du texte, ce qui ne garantit pas une bonne capture de l’information sémantique. En outre, le réseau UNet efficace utilisé par Imagen n’est pas le choix optimal pour le traitement d’images. Pour surmonter ces limitations, nous proposons Swinv2-Imagen, un nouveau modèle de diffusion pour la génération d’images à partir de texte, basé sur un Transformer visuel hiérarchique et sur un graphe scénique intégrant une disposition sémantique. Dans le modèle proposé, les vecteurs de caractéristiques des entités et des relations sont extraits et intégrés dans le modèle de diffusion, améliorant ainsi efficacement la qualité des images générées. Par ailleurs, nous introduisons également une architecture UNet fondée sur Swin-Transformer, nommée Swinv2-Unet, qui permet de résoudre les problèmes liés aux opérations de convolution des réseaux de neurones convolutifs (CNN). Des expérimentations étendues ont été menées sur trois jeux de données réels — MSCOCO, CUB et MM-CelebA-HQ — afin d’évaluer la performance du modèle proposé. Les résultats expérimentaux montrent que Swinv2-Imagen surpasse plusieurs méthodes de pointe largement utilisées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Swinv2-Imagen : Modèles de diffusion à transformer vision hiérarchique pour la génération d’images à partir de texte | Articles | HyperAI