19 小时前

下一视觉粒度生成

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy
下一视觉粒度生成
摘要

我们提出了一种全新的图像生成方法,该方法将图像分解为一个结构化的序列,其中序列中的每个元素具有相同的空间分辨率,但所使用的唯一标记(token)数量不同,从而捕捉不同层次的视觉细节粒度。图像生成通过我们新提出的下一视觉粒度(Next Visual Granularity, NVG)生成框架实现,该框架从一张空白图像开始,以结构化的方式逐步生成视觉粒度序列,由整体布局逐步细化至精细细节。这一迭代过程编码了一种分层的、多层级的表示结构,实现了对多粒度层级下生成过程的精细控制。我们在 ImageNet 数据集上训练了一系列用于类别条件图像生成的 NVG 模型,并观察到明显的模型规模扩展行为。与 VAR 系列方法相比,NVG 在 FID 分数上始终表现更优(3.30 → 3.03,2.57 → 2.44,2.09 → 2.06)。我们还进行了广泛的分析,以展示 NVG 框架的能力与潜力。相关代码与模型将公开发布。

下一视觉粒度生成 | 最新论文 | HyperAI超神经