HyperAIHyperAI
il y a 17 jours

Vers la génération et la manipulation de visages textuels dans un monde ouvert

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu
Vers la génération et la manipulation de visages textuels dans un monde ouvert
Résumé

Les méthodes actuelles de génération d’images guidées par le texte ne permettent d’obtenir que des résultats de qualité limitée, avec une résolution maximale de \mbox{$\text{256}^2$}, et les instructions textuelles sont restreintes à un petit corpus. Dans ce travail, nous proposons un cadre unifié pour la génération et la manipulation d’images de visages, capable de produire des images diversifiées et de haute qualité à une résolution inédite de 1024 à partir d’entrées multimodales. Plus important encore, notre méthode prend en charge des scénarios à monde ouvert, incluant à la fois des images et du texte, sans nécessiter de re-entraînement, de fine-tuning ni de post-traitement. Plus précisément, nous introduisons un nouveau paradigme de génération et de manipulation d’images guidées par le texte, tirant parti des caractéristiques supérieures d’un modèle GAN pré-entraîné. Ce paradigme repose sur deux stratégies novatrices. La première consiste à entraîner un encodeur de texte afin d’obtenir des codes latents alignés avec la structure sémantique hiérarchique du GAN pré-entraîné mentionné. La seconde stratégie consiste à optimiser directement les codes latents dans l’espace latente du GAN pré-entraîné, guidée par un modèle linguistique pré-entraîné. Ces codes latents peuvent être échantillonnés aléatoirement à partir d’une distribution a priori ou inversés à partir d’une image donnée, offrant ainsi un support intrinsèque à la génération et à la manipulation d’images à partir d’entrées multimodales telles que des croquis ou des étiquettes sémantiques, sous la guidance textuelle. Afin de faciliter la synthèse multimodale guidée par le texte, nous proposons le jeu de données Multi-Modal CelebA-HQ, un ensemble de données à grande échelle composé d’images réelles de visages, accompagnées de cartes de segmentation sémantique, de croquis et de descriptions textuelles correspondantes. Des expériences étendues sur ce jeu de données introduit démontrent la supériorité de la méthode proposée. Le code source et les données sont disponibles à l’adresse suivante : https://github.com/weihaox/TediGAN.