HyperAIHyperAI
vor 2 Monaten

Vorabtrainierung ist alles, was für die Bild-zu-Bild-Übersetzung benötigt wird.

Tengfei Wang; Ting Zhang; Bo Zhang; Hao Ouyang; Dong Chen; Qifeng Chen; Fang Wen
Vorabtrainierung ist alles, was für die Bild-zu-Bild-Übersetzung benötigt wird.
Abstract

Wir schlagen vor, vortrainierte Modelle zu verwenden, um die allgemeine Bild-zu-Bild-Übersetzung zu verbessern. Vorherige Methoden zur Bild-zu-Bild-Übersetzung benötigen in der Regel speziell angepasste Architekturen und trainieren einzelne Übersetzungsmodelle von Grund auf neu, wobei sie insbesondere bei der hochwertigen Generierung komplexer Szenen Schwierigkeiten haben, wenn gepaarte Trainingsdaten nicht ausreichend vorhanden sind. In diesem Artikel betrachten wir jedes Problem der Bild-zu-Bild-Übersetzung als eine Downstream-Aufgabe und stellen einen einfachen und generischen Rahmen vor, der ein vortrainiertes Diffusionsmodell anpasst, um verschiedene Arten von Bild-zu-Bild-Übersetzungen zu unterstützen. Wir schlagen zudem ein adversariales Training vor, um die Textursynthese während des Trainings des Diffusionsmodells zu verbessern. Dies erfolgt in Verbindung mit normierter Guidance-Sampling, um die Generierungsgüte zu erhöhen. Wir führen umfangreiche empirische Vergleiche für verschiedene Aufgaben durch, unter anderem auf anspruchsvollen Benchmarks wie ADE20K, COCO-Stuff und DIODE. Diese zeigen, dass das vorgeschlagene vortrainierte-basierte Bild-zu-Bild-Übersetzungssystem (PITI) in der Lage ist, Bilder von bisher unerreichter Realitätstreue und Genauigkeit zu synthetisieren.

Vorabtrainierung ist alles, was für die Bild-zu-Bild-Übersetzung benötigt wird. | Neueste Forschungsarbeiten | HyperAI