
摘要
我们提出Bit Diffusion:一种简单且通用的方法,用于在连续状态与连续时间的扩散模型框架下生成离散数据。该方法的核心思想是:首先将离散数据表示为二进制比特(binary bits),然后训练一个连续扩散模型,将这些比特建模为实数值,我们称之为“模拟比特”(analog bits)。在采样过程中,模型首先生成模拟比特,随后通过阈值化处理将其还原为表示离散变量的实际比特。为进一步提升生成样本的质量,我们提出了两种简单而有效的技术——自条件(Self-Conditioning)与非对称时间区间(Asymmetric Time Intervals),二者显著提升了生成效果。尽管方法设计简洁,该框架在离散图像生成与图像描述生成任务中均表现出强劲性能。在离散图像生成任务中,我们在CIFAR-10(包含3,000个8比特离散token)和ImageNet-64x64(包含12,000个8比特离散token)两个数据集上均显著超越了此前的最先进水平。在样本质量(以FID衡量)和生成效率方面,均优于当前最佳的自回归模型。在MS-COCO数据集上的图像描述生成任务中,我们的方法也取得了与自回归模型相当的竞争力结果。