il y a 17 jours

Swinv2-Imagen : Modèles de diffusion à transformer vision hiérarchique pour la génération d’images à partir de texte

Ruijun Li, Weihua Li, Yi Yang, Hanyu Wei, Jianhua Jiang, Quan Bai

Résumé

Récemment, les modèles de diffusion se sont révélés extrêmement performants dans les tâches de synthèse d’images à partir de texte, ouvrant ainsi de nouvelles perspectives de recherche dans le domaine de la génération d’images. Google Imagen suit cette tendance et dépasse DALL-E 2 pour devenir le meilleur modèle de génération d’images à partir de texte. Toutefois, Imagen utilise uniquement un modèle linguistique T5 pour le traitement du texte, ce qui ne garantit pas une bonne capture de l’information sémantique. En outre, le réseau UNet efficace utilisé par Imagen n’est pas le choix optimal pour le traitement d’images. Pour surmonter ces limitations, nous proposons Swinv2-Imagen, un nouveau modèle de diffusion pour la génération d’images à partir de texte, basé sur un Transformer visuel hiérarchique et sur un graphe scénique intégrant une disposition sémantique. Dans le modèle proposé, les vecteurs de caractéristiques des entités et des relations sont extraits et intégrés dans le modèle de diffusion, améliorant ainsi efficacement la qualité des images générées. Par ailleurs, nous introduisons également une architecture UNet fondée sur Swin-Transformer, nommée Swinv2-Unet, qui permet de résoudre les problèmes liés aux opérations de convolution des réseaux de neurones convolutifs (CNN). Des expérimentations étendues ont été menées sur trois jeux de données réels — MSCOCO, CUB et MM-CelebA-HQ — afin d’évaluer la performance du modèle proposé. Les résultats expérimentaux montrent que Swinv2-Imagen surpasse plusieurs méthodes de pointe largement utilisées.