
摘要
文本到图像生成旨在根据文本描述生成自然图像。该任务的主要挑战在于如何有效地将文本信息融合到图像生成过程中。现有方法通常通过多个独立的融合模块(如条件批量归一化和实例归一化)自适应地将文本信息注入生成过程。然而,这些独立的融合模块不仅彼此之间存在冲突,还增加了训练的难度(详见补充材料第一页)。为解决上述问题,本文提出一种用于生成对抗网络的循环仿射变换(Recurrent Affine Transformation, RAT),通过循环神经网络将所有融合模块连接起来,以建模它们之间的长期依赖关系。此外,为提升文本与生成图像之间的语义一致性,我们在判别器中引入了空间注意力机制。该机制能够识别与文本描述相匹配的图像区域,从而指导生成器合成更具相关性的图像内容。在CUB、Oxford-102和COCO数据集上的大量实验表明,所提出的模型在生成效果上优于当前最先进的方法。\footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}