Préformation est tout ce dont vous avez besoin pour la traduction d'image à image

Nous proposons d'utiliser le préentraînement pour améliorer la traduction générale d'images. Les méthodes de traduction d'images précédentes nécessitent généralement une conception architecturale dédiée et entraînent des modèles de traduction individuels à partir de zéro, ce qui pose des défis pour la génération de haute qualité de scènes complexes, en particulier lorsque les données d'entraînement appariées sont peu abondantes. Dans cet article, nous considérons chaque problème de traduction d'images comme une tâche aval et introduisons un cadre simple et générique qui adapte un modèle de diffusion préentraîné pour accommoder divers types de traduction d'images. Nous proposons également un entraînement adverse pour renforcer la synthèse de textures lors de l'entraînement du modèle de diffusion, associé à un échantillonnage guidé normalisé pour améliorer la qualité de génération. Nous présentons une comparaison empirique étendue sur diverses tâches à l'aide de benchmarks difficiles tels que ADE20K, COCO-Stuff et DIODE, montrant que la traduction d'images basée sur le préentraînement (PITI) est capable de synthétiser des images d'un réalisme et d'une fidélité sans précédent.