6 个月前

计算机视觉

Qihang Yu Ju He Xueqing Deng Xiaohui Shen Liang-Chieh Chen

摘要

本文提出了一种用于视觉生成的随机化自回归建模方法（Randomized AutoRegressive modeling, RAR），在保持与语言建模框架完全兼容的前提下，实现了图像生成任务的新一代最先进性能。所提出的RAR方法设计简洁：在标准的自回归训练过程中，以预测下一个标记（next-token）为目标，将通常按扫描线（raster）顺序排列的输入序列以概率 $r$ 随机打乱为不同的因子分解顺序，其中 $r$ 初始值为 1，并在训练过程中线性衰减至 0。这种退火式训练策略使模型能够学习在所有可能的因子分解顺序上最大化期望似然，从而有效提升模型对双向上下文的建模能力。尤为重要的是，RAR保持了自回归建模框架的完整性，既确保了与语言建模框架的完全兼容性，又显著提升了图像生成的性能。在 ImageNet-256 基准测试中，RAR取得了 1.48 的 FID 分数，不仅超越了以往最先进的自回归图像生成模型，也优于当前领先的扩散模型（diffusion-based）和掩码 Transformer 模型（masked transformer-based）方法。代码与模型将公开于：https://github.com/bytedance/1d-tokenizer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Qihang Yu Ju He Xueqing Deng Xiaohui Shen Liang-Chieh Chen

摘要

本文提出了一种用于视觉生成的随机化自回归建模方法（Randomized AutoRegressive modeling, RAR），在保持与语言建模框架完全兼容的前提下，实现了图像生成任务的新一代最先进性能。所提出的RAR方法设计简洁：在标准的自回归训练过程中，以预测下一个标记（next-token）为目标，将通常按扫描线（raster）顺序排列的输入序列以概率 $r$ 随机打乱为不同的因子分解顺序，其中 $r$ 初始值为 1，并在训练过程中线性衰减至 0。这种退火式训练策略使模型能够学习在所有可能的因子分解顺序上最大化期望似然，从而有效提升模型对双向上下文的建模能力。尤为重要的是，RAR保持了自回归建模框架的完整性，既确保了与语言建模框架的完全兼容性，又显著提升了图像生成的性能。在 ImageNet-256 基准测试中，RAR取得了 1.48 的 FID 分数，不仅超越了以往最先进的自回归图像生成模型，也优于当前领先的扩散模型（diffusion-based）和掩码 Transformer 模型（masked transformer-based）方法。代码与模型将公开于：https://github.com/bytedance/1d-tokenizer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供