在机器学习中,扩散模型也称为扩散概率模型或基于分数的生成模型,是一类潜变量生成模型。扩散模型由三个主要部分组成:正向过程、反向过程和采样过程。扩散模型的目标是学习生成给定数据集的概率分布的扩散过程。他们通过对数据点在潜在空间中扩散的方式进行建模来学习数据集的潜在结构。
就计算机视觉而言,扩散模型可以应用于各种任务,包括图像去噪、修复、超分辨率和图像生成。它们通常涉及训练神经网络以顺序对高斯噪声模糊的图像进行去噪。该模型经过训练可以逆转向图像添加噪声的过程。训练收敛后,它可以用于图像生成,从由随机噪声组成的图像开始,让网络迭代去噪。 OpenAI 的文本到图像模型 DALL-E 2 就是一个例子,该示例将扩散模型用于模型的先验(在给定文本标题的情况下生成图像嵌入)和生成最终图像的解码器。扩散模型最近在自然语言处理 (NLP) 中得到了应用,特别是在文本生成和摘要等领域。计算机视觉中使用的通用扩散建模框架的示例包括去噪扩散概率模型、噪声条件评分网络和随机微分方程。
扩散模型的灵感来自非平衡热力学。他们定义了扩散步骤的马尔可夫链,以缓慢地将随机噪声添加到数据中,然后学习反转扩散过程以从噪声构建所需的数据样本。与 VAE 或流模型不同,扩散模型是通过固定程序学习的,并且潜在变量具有高维度(与原始数据相同)。
【1】https://lilianweng.github.io/posts/2021-07-11-diffusion-models/