
スコアベース拡散モデル(Score-based Diffusion Models, SBDMs)は、ペアなし画像間翻訳(unpaired image-to-image translation, I2I)において、現在の最良(SOTA)のFIDスコアを達成している。しかし、本研究では既存の手法がソースドメインの訓練データを完全に無視していることに着目し、これによりペアなしI2Iの最適解が得られず、性能が劣化している可能性があると指摘する。この問題に対処するため、本研究では「エネルギー誘導型確率微分方程式(Energy-guided Stochastic Differential Equations, EGSDE)」を提案する。EGSDEは、ソースドメインとターゲットドメインの両方で事前学習されたエネルギー関数を用い、事前学習済みのSDE(確率微分方程式)の推論プロセスをガイドすることで、現実的かつ忠実なペアなしI2Iを実現する。2つの特徴抽出器を基盤とし、エネルギー関数を精緻に設計することで、変換された画像がドメインに依存しない特徴を保持しつつ、ドメイン固有の特徴を排除することを促進する。さらに、EGSDEを「エキスパートの積(product of experts)」としての別解釈も提示する。この解釈では、3つのエキスパート(SDEおよび2つの特徴抽出器に対応)の各々が忠実性または現実性のいずれかにのみ寄与する。実験的に、EGSDEは4つの評価指標に基づき、3つの広く採用されているペアなしI2Iタスクにおいて、多数のベースライン手法と比較した結果、ほぼすべての設定で既存のSBDMに基づく手法を一貫して上回り、忠実性を損なうことなくSOTAの現実性性能を達成した。さらに、EGSDEは現実性と忠実性の間で柔軟なトレードオフを可能にし、ハイパーパラメータの調整により、現実性性能をさらに向上させた(例:AFHQデータセットにおける「猫→犬」タスクでFID=51.04、「野生動物→犬」タスクでFID=50.43)。コードはGitHubにて公開されている:https://github.com/ML-GSAI/EGSDE。