Command Palette

Search for a command to run...

20 天前

通过自监督预训练推进端到端像素空间生成建模

Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

通过自监督预训练推进端到端像素空间生成建模

摘要

像素空间生成模型通常比其隐空间对应模型更难训练,且整体性能也较差,导致性能与效率之间长期存在差距。本文提出一种新颖的两阶段训练框架,成功弥合了像素空间扩散模型与一致性模型在这一方面的差距。在第一阶段,我们预训练编码器,使其从干净图像中捕捉有意义的语义信息,同时将这些编码器与同一确定性采样轨迹上的点对齐——该轨迹从先验分布逐步演化至数据分布。在第二阶段,我们将预训练的编码器与随机初始化的解码器相结合,并对完整的模型进行端到端微调,以同时适用于扩散模型和一致性模型。该训练框架在ImageNet数据集上展现出强劲的实证性能。具体而言,我们的扩散模型在ImageNet-256上达到2.04的FID分数,在ImageNet-512上达到2.35的FID分数(使用75次函数评估次数,NFE),在生成质量和效率两方面均显著超越此前所有像素空间方法,且在相近训练成本下媲美当前领先的基于VAE的模型。此外,在ImageNet-256上,我们的一致性模型仅需单步采样即实现8.82的FID分数,显著优于其隐空间对应模型。据我们所知,这是首个在不依赖预训练VAE或扩散模型的前提下,成功直接在高分辨率图像上训练一致性模型的实例。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供