EGSDE : Traduction d’images non appariées via des équations différentielles stochastiques guidées par l’énergie

Les modèles de diffusion basés sur les scores (SBDMs) ont atteint des résultats SOTA en termes de FID pour la traduction d’images sans paires (I2I). Toutefois, nous constatons que les méthodes existantes ignorent complètement les données d’entraînement du domaine source, ce qui conduit à des solutions sous-optimales dans le cadre de la traduction I2I sans paires. A cet effet, nous proposons des équations différentielles stochastiques guidées par une énergie (EGSDE), qui exploite une fonction d’énergie préentraînée sur les deux domaines source et cible afin de guider le processus d’inférence d’un SDE préentraîné, afin d’obtenir une traduction réaliste et fidèle. En s’appuyant sur deux extracteurs de caractéristiques, nous concevons soigneusement la fonction d’énergie de manière à favoriser la préservation des caractéristiques indépendantes du domaine tout en éliminant les caractéristiques spécifiques à un domaine. En outre, nous proposons une interprétation alternative de l’EGSDE comme un produit d’experts, où chacun des trois experts (correspondant au SDE et aux deux extracteurs de caractéristiques) contribue de manière exclusive à la fidélité ou au réalisme. Expérimentalement, nous comparons l’EGSDE à une large famille de méthodes de référence sur trois tâches standardisées de traduction I2I sans paires, selon quatre métriques. L’EGSDE surpasse non seulement de manière cohérente les méthodes basées sur les SBDMs existantes dans presque tous les scénarios, mais atteint également les meilleurs résultats en termes de réalisme sans compromettre la performance en fidélité. En outre, l’EGSDE permet des compromis flexibles entre réalisme et fidélité, et nous améliorons davantage les résultats en réalisme (par exemple, un FID de 51,04 pour la traduction de Chat à Chien, et un FID de 50,43 pour la traduction de Sauvage à Chien sur AFHQ) en ajustant les hyperparamètres. Le code est disponible à l’adresse suivante : https://github.com/ML-GSAI/EGSDE.