Command Palette
Search for a command to run...
Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

摘要
视觉风格化是艺术创作的核心要素之一,然而生成新颖且一致的视觉风格仍面临重大挑战。现有的生成方法通常依赖于冗长的文本提示、参考图像或参数高效的微调来引导风格感知的图像生成,但往往在风格一致性、创造力有限以及复杂风格表征方面存在不足。本文提出一个全新观点:一个视觉风格,仅需一个数值编码即可表征,由此引入了一项创新任务——代码到风格的图像生成(code-to-style image generation),该任务仅通过一个数值风格代码,即可生成具有新颖且一致视觉风格的图像。截至目前,该领域主要由工业界(如 Midjourney)探索,学术界尚无开源研究工作。为填补这一空白,我们提出 CoTyle,这是首个面向该任务的开源方法。具体而言,我们首先从大量图像中训练一个离散的风格代码本(discrete style codebook),以提取风格嵌入(style embeddings)。这些嵌入作为条件输入,驱动文本到图像扩散模型(Text-to-Image Diffusion Model, T2I-DM)生成具有特定风格的图像。随后,我们在离散风格嵌入上训练一个自回归风格生成器,以建模其分布,从而实现新风格嵌入的合成。在推理阶段,给定一个数值风格代码,风格生成器将其映射为唯一的风格嵌入,该嵌入进一步指导 T2I-DM 生成对应风格的图像。与现有方法相比,我们的方法在结构上具有前所未有的简洁性与多样性,仅需极简输入即可从广阔风格空间中生成可复现、一致且富有创意的视觉风格。大量实验验证了 CoTyle 的有效性,充分证明了“一个风格,仅需一个代码”的核心理念,实现了将数值代码高效转化为风格控制器的突破。