HyperAIHyperAI

Command Palette

Search for a command to run...

Vorabtrainierung ist alles, was für die Bild-zu-Bild-Übersetzung benötigt wird.

Tengfei Wang; Ting Zhang; Bo Zhang; Hao Ouyang; Dong Chen; Qifeng Chen; Fang Wen

Zusammenfassung

Wir schlagen vor, vortrainierte Modelle zu verwenden, um die allgemeine Bild-zu-Bild-Übersetzung zu verbessern. Vorherige Methoden zur Bild-zu-Bild-Übersetzung benötigen in der Regel speziell angepasste Architekturen und trainieren einzelne Übersetzungsmodelle von Grund auf neu, wobei sie insbesondere bei der hochwertigen Generierung komplexer Szenen Schwierigkeiten haben, wenn gepaarte Trainingsdaten nicht ausreichend vorhanden sind. In diesem Artikel betrachten wir jedes Problem der Bild-zu-Bild-Übersetzung als eine Downstream-Aufgabe und stellen einen einfachen und generischen Rahmen vor, der ein vortrainiertes Diffusionsmodell anpasst, um verschiedene Arten von Bild-zu-Bild-Übersetzungen zu unterstützen. Wir schlagen zudem ein adversariales Training vor, um die Textursynthese während des Trainings des Diffusionsmodells zu verbessern. Dies erfolgt in Verbindung mit normierter Guidance-Sampling, um die Generierungsgüte zu erhöhen. Wir führen umfangreiche empirische Vergleiche für verschiedene Aufgaben durch, unter anderem auf anspruchsvollen Benchmarks wie ADE20K, COCO-Stuff und DIODE. Diese zeigen, dass das vorgeschlagene vortrainierte-basierte Bild-zu-Bild-Übersetzungssystem (PITI) in der Lage ist, Bilder von bisher unerreichter Realitätstreue und Genauigkeit zu synthetisieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp