Make-A-Scene : Génération d'images à partir de texte basée sur des scènes avec des priori humains

Les méthodes récentes de génération d’images à partir de texte offrent une capacité de conversion simple mais passionnante entre les domaines texte et image. Bien que ces méthodes aient progressivement amélioré la fidélité des images générées et la pertinence par rapport au texte, plusieurs lacunes fondamentales persistent, limitant leur applicabilité et leur qualité. Nous proposons une nouvelle méthode de génération d’images à partir de texte qui comble ces lacunes en (i) introduisant un mécanisme de contrôle simple complémentaire au texte, sous la forme d’une scène, (ii) intégrant des éléments qui améliorent significativement le processus de tokenisation grâce à une connaissance spécifique au domaine portant sur des régions clés des images (visages et objets saillants), et (iii) adaptant la guidance sans classificateur au cas d’usage des transformateurs. Notre modèle atteint des résultats optimaux en termes d’indice FID et d’évaluation humaine, permettant ainsi la génération d’images de haute fidélité à une résolution de 512×512 pixels, avec une amélioration notable de la qualité visuelle. Grâce à la contrôlabilité des scènes, nous introduisons plusieurs nouvelles fonctionnalités : (i) édition de scène, (ii) édition de texte à l’aide de scènes d’ancrage, (iii) surmontation des requêtes textuelles hors distribution, et (iv) génération d’illustrations de récits, comme démontré dans le récit que nous avons élaboré.