13 天前

PixNerd:像素神经场扩散

Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
PixNerd:像素神经场扩散
摘要

当前扩散变换器(diffusion transformers)的成功在很大程度上依赖于由预训练变分自编码器(VAE)所构建的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了误差累积和解码伪影。为解决上述问题,研究人员转向像素空间进行建模,但代价是采用复杂的级联流程以及增加的令牌复杂度。与这些方法不同,我们提出通过神经场(neural field)对图像块(patch-wise)进行解码,提出了一种单尺度、单阶段、高效且端到端的解决方案,命名为像素神经场扩散(Pixel Neural Field Diffusion,简称 PixelNerd)。得益于 PixelNerd 中高效的神经场表示,我们无需任何复杂的级联流程或 VAE,便直接在 ImageNet $256\times256$ 上实现了 2.15 的 FID 分数,在 ImageNet $512\times512$ 上实现了 2.84 的 FID 分数。此外,我们将 PixelNerd 框架拓展至文本到图像生成任务。其中,PixelNerd-XXL/16 在 GenEval 基准测试中取得了 0.73 的综合得分,在 DPG 基准测试中取得了 80.9 的综合得分,表现具有竞争力。