HyperAI超神经

PixelFlow:基于像素空间的生成模型与流

Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
发布日期: 4/16/2025
PixelFlow:基于像素空间的生成模型与流
摘要

我们介绍了PixelFlow,这是一类直接在原始像素空间中运行的图像生成模型,与目前主流的潜在空间模型形成对比。这种方法通过消除对预训练变分自编码器(VAE)的需求,简化了图像生成过程,并使整个模型能够端到端地进行训练。通过高效的级联流建模,PixelFlow在像素空间中实现了可承受的计算成本。在256×256 ImageNet类别条件图像生成基准测试中,PixelFlow达到了1.98的FID分数。定性的文本到图像结果表明,PixelFlow在图像质量、艺术性和语义控制方面表现出色。我们希望这一新的范式能够激发并为下一代视觉生成模型开辟新的机遇。代码和模型可在https://github.com/ShoufaChen/PixelFlow 获取。