Command Palette
Search for a command to run...
自编码器和变分自编码器
摘要
一句话总结
本文逐步推导了高斯分布之间闭式的 Kullback-Leibler 散度,将单变量公式扩展至多元对角协方差情形,以解释各项含义并阐明其对变分自编码器(VAE)训练动态及潜在空间正则化的影响。
核心贡献
- 提供了高斯分布闭式 Kullback-Leibler 散度的严谨逐步推导,从连续变量的通用定义出发,逐步推进至单变量情形,最终在协方差为对角矩阵的假设下推导多元分布形式。
- 明确将所得散度公式分解为各个独立的数学项,以阐明变分自编码器架构中的正则化机制。
- 分析各项的功能作用,展示特定组件如何约束潜在空间并直接影响模型训练过程中的优化动态。
引言
概率建模是现代生成式人工智能的基础,变分自编码器(VAE)依赖 Kullback-Leibler(KL)散度将学习到的表征正则化至标准正态先验分布。尽管 KL 散度在训练期间塑造潜在空间方面起着关键作用,但现有文献通常以抽象方式引入该散度,并直接给出高斯分布的闭式表达式而缺乏推导过程,导致实践者无法清晰理解其影响优化的具体机制。作者通过提供高斯分布 KL 散度的严谨逐步推导来弥补这一空白,推导过程从单变量情形扩展至具有对角协方差的多元设定。随后,作者将该数学基础转化为实践洞察,展示了正则化项如何直接控制 VAE 的训练动态与表征质量。
数据集
- 数据集构成与来源:提供的摘录仅包含论文标题和机构隶属信息,作者未描述任何数据集构成或外部数据源。
- 各子集的关键细节:未提及子集划分、样本数量或过滤标准。
- 论文对数据的使用方式:摘录未提供有关训练集划分、混合比例或模型训练流程的信息。
- 处理细节:作者未概述任何裁剪策略、元数据构建或其他数据处理步骤。
方法
作者将 Kullback-Leibler(KL)散度作为变分自编码器(VAE)中的核心正则化机制,用于量化潜在变量上的近似后验分布与预设先验之间的差异。该散度在两个多元高斯分布之间计算:由均值 μ(x) 和协方差 Σ(x) 参数化的近似后验 q(z∣x),以及标准正态先验 p(z)=N(0,Ik)。KL 散度是 VAE 目标函数的关键组成部分,它促使学习到的潜在空间符合先验分布,同时支持生成式建模。
[[IMG:]] 如图所示,KL 散度的推导始于连续分布的通用定义,该定义表示为概率密度对数比值的积分。对于高斯分布,将密度函数代入该定义,并将每个密度的对数展开为包含均值、协方差和维度的各项。利用对数性质简化表达式并在定义域上积分后,KL 散度分解为三个独立的组成部分。第一项捕捉协方差矩阵行列式的比值,第二项涉及逆先验协方差与后验协方差乘积的迹,第三项则对应由逆先验协方差缩放的均值之间的马氏距离。
[[IMG:]] 这些项的计算通过利用期望和迹算子的线性性质进行。由于概率分布的归一化性质,第一项可直接简化。第二项利用恒等式 x−μ2=(x−μ1)+(μ1−μ2) 进行展开,并逐项计算期望。由于中心化变量在后验分布下的均值为零,交叉项消失,而剩余项则给出 Σ2−1Σ1 的迹以及均值之间马氏距离的平方。第三项代表后验分布下二次型的期望值,由于单位矩阵的迹,该项简化为 21k。通过组合这些组件得到 KL 散度的最终表达式,该闭式表达式依赖于协方差乘积的迹、马氏距离、对数行列式比值以及维度。
在 VAE 的上下文中,先验通常为标准正态分布,这显著简化了通用表达式。所得公式变为 21(tr(Σ(x))+μ(x)⊤μ(x)−k−log∣Σ(x)∣)。该闭式解支持训练期间的高效评估与可微计算,使其适用于基于梯度的优化方法。使用该表达式可确保潜在空间保持良好的结构,并促进新数据点的平滑采样与生成。