17 天前

EGSDE:基于能量引导随机微分方程的无配对图像到图像翻译

Min Zhao, Fan Bao, Chongxuan Li, Jun Zhu
EGSDE:基于能量引导随机微分方程的无配对图像到图像翻译
摘要

基于得分的扩散模型(Score-based Diffusion Models, SBDMs)在无配对图像到图像翻译(Unpaired Image-to-Image Translation, I2I)任务中取得了当前最优的FID指标表现。然而,我们注意到现有方法完全忽略了源域训练数据的信息,导致在无配对I2I任务中难以获得最优解。为此,我们提出了一种能量引导的随机微分方程(Energy-guided Stochastic Differential Equations, EGSDE),该方法利用在源域与目标域上共同预训练的能量函数,指导预训练SDE的推理过程,从而实现更真实且忠实的无配对图像翻译。基于两个特征提取器,我们精心设计了能量函数,使其能够促使生成图像保留域无关特征,同时抑制域特定特征的干扰。此外,我们从“专家乘积”(product of experts)的角度对EGSDE提供了另一种解释:其中三个专家(分别对应SDE模型以及两个特征提取器)各自独立地贡献于生成结果的真实性或忠实性。在三个广泛采用的无配对I2I任务上,我们基于四项评估指标对EGSDE与大量基线方法进行了实证比较。实验结果表明,EGSDE不仅在几乎所有设置下均持续优于现有的基于SBDM的方法,而且在不损害忠实性表现的前提下,实现了当前最优的真实性水平。更重要的是,EGSDE支持在真实性和忠实性之间灵活权衡,通过调节超参数,我们进一步提升了真实性表现——例如在AFHQ数据集上,Cat to Dog任务的FID降至51.04,Wild to Dog任务的FID降至50.43。相关代码已开源,地址为:https://github.com/ML-GSAI/EGSDE。