6 个月前

计算机视觉

Tianhong Li Yonglong Tian He Li Mingyang Deng Kaiming He

摘要

传统观点认为，图像生成的自回归模型通常依赖于向量量化（vector-quantized）的离散标记（tokens）。然而，我们观察到，尽管离散空间有助于表示类别分布，但并非自回归建模的必要条件。在本工作中，我们提出采用扩散过程（diffusion procedure）来建模每个标记的概率分布，从而实现自回归模型在连续值空间中的应用。与传统的类别交叉熵损失不同，我们引入了一种新的“扩散损失”（Diffusion Loss）函数来建模每个标记的概率分布。该方法无需依赖离散标记化器，彻底消除了对向量量化步骤的需求。我们在多种场景下评估了该方法的有效性，涵盖标准自回归模型以及广义的掩码自回归（masked autoregressive, MAR）变体。通过摒弃向量量化，我们的图像生成器在保持强大生成性能的同时，兼具序列建模带来的高效性优势。我们期望本工作能推动自回归生成方法在其他连续值领域与应用场景中的进一步探索与应用。代码已开源，地址为：https://github.com/LTH14/mar。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Tianhong Li Yonglong Tian He Li Mingyang Deng Kaiming He

摘要

传统观点认为，图像生成的自回归模型通常依赖于向量量化（vector-quantized）的离散标记（tokens）。然而，我们观察到，尽管离散空间有助于表示类别分布，但并非自回归建模的必要条件。在本工作中，我们提出采用扩散过程（diffusion procedure）来建模每个标记的概率分布，从而实现自回归模型在连续值空间中的应用。与传统的类别交叉熵损失不同，我们引入了一种新的“扩散损失”（Diffusion Loss）函数来建模每个标记的概率分布。该方法无需依赖离散标记化器，彻底消除了对向量量化步骤的需求。我们在多种场景下评估了该方法的有效性，涵盖标准自回归模型以及广义的掩码自回归（masked autoregressive, MAR）变体。通过摒弃向量量化，我们的图像生成器在保持强大生成性能的同时，兼具序列建模带来的高效性优势。我们期望本工作能推动自回归生成方法在其他连续值领域与应用场景中的进一步探索与应用。代码已开源，地址为：https://github.com/LTH14/mar。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供