17 天前

Re-Imagen:检索增强型文本到图像生成器

Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen
Re-Imagen:检索增强型文本到图像生成器
摘要

文本到图像生成研究在生成多样化且高度逼真的图像方面取得了显著进展,这主要得益于在大规模图像-文本数据上训练的扩散模型与自回归模型。尽管当前最先进模型能够生成常见实体的高质量图像,但在生成不常见实体(如“乔尔泰犬(Chortai dog)”或“皮卡龙斯食品(Picarones)”)时仍面临挑战。为解决这一问题,我们提出了检索增强型文本到图像生成器(Retrieval-Augmented Text-to-Image Generator, Re-Imagen),一种利用检索信息生成高保真、忠实于描述的图像的生成模型,即使面对罕见或未见过的实体也能有效工作。给定一个文本提示,Re-Imagen会访问一个外部多模态知识库,检索相关的(图像,文本)配对,并将其作为参考来生成目标图像。通过这一检索步骤,Re-Imagen获得了所提及实体的高层语义信息与底层视觉细节知识,从而显著提升了生成实体视觉外观的准确性。我们构建了一个包含(图像,文本,检索)三元组的数据集,用于训练Re-Imagen,使其能够同时基于文本提示与检索结果进行语义定位。此外,我们设计了一种新的采样策略,通过交错使用无分类器引导(classifier-free guidance)的文本条件与检索条件,实现文本与检索信息之间的平衡对齐。在COCO和WikiImage数据集上的实验表明,Re-Imagen在FID分数上取得了显著提升。为进一步评估模型能力,我们提出了一个新基准——EntityDrawBench,该基准用于评估模型在多种物体类别(包括犬类、食物、地标、鸟类及角色等)中,从高频到低频实体的图像生成性能。人类评估结果表明,Re-Imagen在生成较少见实体图像时,显著提升了图像的真实性与细节保真度,展现出在长尾实体生成方面的强大潜力。