2 个月前

基于层次结构的文本条件图像生成与CLIP潜在变量

Aditya Ramesh; Prafulla Dhariwal; Alex Nichol; Casey Chu; Mark Chen
基于层次结构的文本条件图像生成与CLIP潜在变量
摘要

对比模型如CLIP已被证明能够学习到既包含语义又包含风格的图像稳健表示。为了利用这些表示进行图像生成,我们提出了一种两阶段模型:一个先验模型,根据给定的文本描述生成CLIP图像嵌入;以及一个解码器,基于该图像嵌入生成图像。我们展示了显式生成图像表示可以提高图像多样性,同时在保持照片真实性和文本描述相似性的前提下仅有微小损失。我们的基于图像表示的解码器还可以生成保留原始图像语义和风格的变体,同时改变那些不在图像表示中的非关键细节。此外,CLIP的联合嵌入空间使得语言引导的图像操作能够在零样本条件下实现。我们使用扩散模型作为解码器,并对先验模型进行了自回归模型和扩散模型的实验,发现后者在计算上更为高效且能生成更高质量的样本。