2 个月前

LAFITE:面向无语言训练的文本到图像生成

Yufan Zhou; Ruiyi Zhang; Changyou Chen; Chunyuan Li; Chris Tensmeyer; Tong Yu; Jiuxiang Gu; Jinhui Xu; Tong Sun
LAFITE:面向无语言训练的文本到图像生成
摘要

训练文本到图像生成模型的主要挑战之一是需要大量高质量的图像-文本对。虽然图像样本通常容易获取,但相关的文本描述通常需要仔细的人工标注,这尤其耗时且成本高昂。在本文中,我们提出了首个无需任何文本数据即可训练文本到图像生成模型的方法。我们的方法利用了强大的预训练CLIP模型中的多模态语义空间的良好对齐性:通过从图像特征生成文本特征,无缝地缓解了文本条件的需求。我们进行了广泛的实验以证明所提出方法的有效性。在标准的文本到图像生成任务中,我们取得了最先进的结果。重要的是,所提出的无语言模型在性能上超过了大多数使用完整图像-文本对训练的现有模型。此外,我们的方法可以应用于预训练模型的微调,从而节省了训练文本到图像生成模型的时间和成本。我们的预训练模型在MS-COCO数据集上的零样本文本到图像生成任务中获得了具有竞争力的结果,而其模型大小和训练数据量仅约为最近提出的大型DALL-E模型的1%。