
摘要
文本到图像生成需要大量训练数据以合成高质量图像。为扩充训练数据,以往方法主要依赖裁剪、翻转和混合等数据插值技术,这些方法无法引入新的信息,仅带来微弱的性能提升。本文提出一种面向文本到图像生成的新数据增强方法,基于线性外推(linear extrapolation)。具体而言,我们仅对文本特征实施线性外推,并通过搜索引擎从互联网检索相应的新图像数据。为确保新生成的文本-图像对的可靠性,我们设计了两种异常值检测器,用于净化检索到的图像。基于外推策略,我们构建的训练样本规模可达原始数据集的数十倍,显著提升了文本到图像生成的性能。此外,我们提出一种NULL引导机制以优化得分估计,并引入递归仿射变换(recurrent affine transformation)实现文本信息的有效融合。实验结果表明,所提模型在CUB、Oxford和COCO数据集上的FID分数分别达到7.91、9.52和5.00。相关代码与数据将公开于GitHub(https://github.com/senmaoy/RAT-Diffusion)。