Command Palette
Search for a command to run...
Guangting Zheng Qinyu Zhao Tao Yang Fei Xiao Zhijie Lin Jie Wu Jiajun Deng Yanyong Zhang Rui Zhu

摘要
直接建模原始数据分布的显式似然,是机器学习领域的一个关键课题,这一方法在自回归建模的推动下,实现了大规模语言模型的可扩展性突破。然而,对视觉像素数据进行连续的自回归建模,面临序列极长和高维空间等挑战。本文提出FARMER,一种新颖的端到端生成框架,通过统一归一化流(Normalizing Flows, NF)与自回归(Autoregressive, AR)模型,实现对原始像素数据的可 tractable(可处理)似然估计与高质量图像生成。FARMER采用可逆自回归流,将图像映射为潜在序列,其分布由自回归模型隐式建模。为解决像素级建模中的冗余性与复杂性,我们提出一种自监督的降维方案,将NF的潜在通道划分为信息性与冗余性两组,从而提升自回归建模的效率与有效性。此外,我们设计了一种单步蒸馏方案,显著加速推理速度,并引入一种基于重采样的无分类器引导算法,以进一步提升图像生成质量。大量实验表明,FARMER在与现有基于像素的生成模型相比,不仅实现了具有竞争力的性能,还能够提供精确的似然值,并支持可扩展的训练。