EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations

Score-based Diffusionsmodelle (SBDMs) haben in der unpaarweisen Bild-zu-Bild-Übersetzung (I2I) die derzeit besten FID-Ergebnisse erzielt. Allerdings stellen wir fest, dass bestehende Methoden die Trainingsdaten im Quellbereich vollständig ignorieren, was zu suboptimalen Lösungen für die unpaarweise I2I führt. Um dies zu beheben, schlagen wir energiegeführte stochastische Differentialgleichungen (EGSDE) vor, die eine Energiefunktion nutzen, die sowohl auf dem Quell- als auch auf dem Zielbereich vortrainiert wurde, um den Inferenzprozess eines vortrainierten SDE zur Erzielung realistischer und treuer unpaarweiser I2I zu leiten. Aufbauend auf zwei Merkmalsextraktoren entwerfen wir die Energiefunktion sorgfältig so, dass sie die Erhaltung domain-unabhängiger Merkmale und die Ableitung domain-spezifischer Merkmale fördert. Darüber hinaus geben wir eine alternative Erklärung von EGSDE als Produkt von Experten, wobei jeder der drei Experten (entsprechend dem SDE und den beiden Merkmalsextraktoren) allein zur Treue oder Realität beiträgt. Empirisch vergleichen wir EGSDE mit einer großen Gruppe von Baselines anhand dreier weit verbreiteter unpaarweiser I2I-Aufgaben unter vier Metriken. EGSDE übertrifft nicht nur in fast allen Szenarien bestehende SBDM-basierte Methoden konsistent, sondern erreicht zudem die derzeit besten Ergebnisse hinsichtlich Realität, ohne die Treueleistung zu beeinträchtigen. Zudem ermöglicht EGSDE flexible Kompromisse zwischen Realität und Treue, und durch Anpassung von Hyperparametern verbessern wir die Realitätsergebnisse weiter (z. B. FID von 51,04 bei Cat to Dog und FID von 50,43 bei Wild to Dog auf AFHQ). Der Quellcode ist unter https://github.com/ML-GSAI/EGSDE verfügbar.