Re-Imagen : Générateur d’images à partir de texte augmenté par la récupération

Les recherches sur la génération d’images à partir de textes ont connu des progrès significatifs dans la création d’images diverses et photoréalistes, grâce aux modèles de diffusion et aux modèles auto-régressifs entraînés sur de grandes quantités de données image-texte. Bien que les modèles de pointe soient capables de générer des images de haute qualité pour des entités courantes, ils éprouvent souvent des difficultés à produire des images d’entités inhabituelles, telles que le « Chortai (chien) » ou les « Picarones (aliment) ». Pour relever ce défi, nous proposons le générateur d’images à partir de texte augmenté par récupération (Re-Imagen), un modèle génératif qui utilise des informations récupérées pour produire des images de haute fidélité et fidèles, même pour des entités rares ou inconnues. Étant donné une requête textuelle, Re-Imagen accède à une base de connaissances multimodale externe afin de récupérer des paires pertinentes (image, texte), qu’il utilise comme références pour générer l’image. Grâce à cette étape de récupération, Re-Imagen est enrichi des connaissances sur les sémantiques de haut niveau et les détails visuels de bas niveau des entités mentionnées, ce qui améliore ainsi sa précision dans la reproduction de leur apparence visuelle. Nous entraînons Re-Imagen sur un jeu de données construit comprenant des triples (image, texte, récupération) afin d’enseigner au modèle à s’appuyer à la fois sur la requête textuelle et sur les éléments récupérés. En outre, nous avons développé une nouvelle stratégie d’échantillonnage permettant d’intercaler la guidance sans classificateur pour les conditions textuelles et celles issues de la récupération, afin d’équilibrer l’alignement entre le texte et les informations récupérées. Re-Imagen obtient une amélioration notable du score FID sur les jeux de données COCO et WikiImage. Pour évaluer plus en profondeur les capacités du modèle, nous introduisons EntityDrawBench, un nouveau benchmark évaluant la génération d’images pour des entités variées, allant des fréquentes aux rares, sur plusieurs catégories d’objets, notamment les chiens, les aliments, les monuments, les oiseaux et les personnages. Les évaluations humaines menées sur EntityDrawBench montrent que Re-Imagen permet une amélioration significative de la fidélité des images générées, en particulier pour les entités moins fréquentes.