7 个月前

摘要

根据给定的文本描述生成图像有两个目标：视觉真实性和语义一致性。尽管在使用生成对抗网络生成高质量且视觉上逼真的图像方面已经取得了显著进展，但确保文本描述与视觉内容之间的语义一致性仍然非常具有挑战性。本文提出了一种新的全局-局部注意力和语义保持的文本到图像再到文本框架，称为MirrorGAN，以解决这一问题。MirrorGAN利用了通过重述学习文本到图像生成的思想，由三个模块组成：语义文本嵌入模块（Semantic Text Embedding Module, STEM）、用于级联图像生成的全局-局部协作注意力模块（Global-Local Collaborative Attentive Module for Cascaded Image Generation, GLAM）以及语义文本再生和对齐模块（Semantic Text Regeneration and Alignment Module, STREAM）。STEM生成词级和句级的嵌入向量。GLAM采用级联架构，从粗略到精细尺度逐步生成目标图像，同时利用局部词注意力和全局句注意力来逐步增强生成图像的多样性和语义一致性。STREAM旨在从生成的图像中重新生成文本描述，使其在语义上与给定的文本描述保持一致。在两个公开基准数据集上的详尽实验表明，MirrorGAN优于其他代表性最新方法。

源 PDF