17 天前

随机化自回归视觉生成

Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
随机化自回归视觉生成
摘要

本文提出了一种用于视觉生成的随机化自回归建模方法(Randomized AutoRegressive modeling, RAR),在保持与语言建模框架完全兼容的前提下,实现了图像生成任务的新一代最先进性能。所提出的RAR方法设计简洁:在标准的自回归训练过程中,以预测下一个标记(next-token)为目标,将通常按扫描线(raster)顺序排列的输入序列以概率 $ r $ 随机打乱为不同的因子分解顺序,其中 $ r $ 初始值为 1,并在训练过程中线性衰减至 0。这种退火式训练策略使模型能够学习在所有可能的因子分解顺序上最大化期望似然,从而有效提升模型对双向上下文的建模能力。尤为重要的是,RAR保持了自回归建模框架的完整性,既确保了与语言建模框架的完全兼容性,又显著提升了图像生成的性能。在 ImageNet-256 基准测试中,RAR取得了 1.48 的 FID 分数,不仅超越了以往最先进的自回归图像生成模型,也优于当前领先的扩散模型(diffusion-based)和掩码 Transformer 模型(masked transformer-based)方法。代码与模型将公开于:https://github.com/bytedance/1d-tokenizer。