HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Bild-zu-Bild-Übersetzung

Gaurav Parmar Krishna Kumar Singh Richard Zhang Yijun Li Jingwan Lu Jun-Yan Zhu

Zusammenfassung

Groß angelegte Text-zu-Bild-Generierungsmodelle haben ihre bemerkenswerte Fähigkeit gezeigt, vielfältige und hochwertige Bilder zu synthetisieren. Es ist jedoch weiterhin schwierig, diese Modelle direkt zur Bearbeitung von realen Bildern anzuwenden, aus zwei Gründen. Erstens fällt es den Benutzern schwer, einen perfekten Textanweisung zu formulieren, die jede visuelle Einzelheit des Eingabebildes präzise beschreibt. Zweitens können bestehende Modelle zwar gewünschte Änderungen in bestimmten Bereichen einführen, aber sie verändern oft den Eingabeinhalt dramatisch und führen unerwartete Änderungen in nicht gewünschten Bereichen ein.In dieser Arbeit schlagen wir pix2pix-zero vor, eine Methode zur Bild-zu-Bild-Übersetzung, die den Inhalt des ursprünglichen Bildes ohne manuelles Prompting bewahren kann. Wir entdecken zunächst automatisch Bearbeitungsrichtungen im Texteinbettungsraum, die gewünschte Änderungen widerspiegeln. Um die allgemeine Inhaltsstruktur nach der Bearbeitung zu erhalten, schlagen wir zudem eine Kreuz-Aufmerksamkeitsleitung (cross-attention guidance) vor, deren Ziel es ist, die Kreuz-Aufmerksamkeitskarten des Eingabebildes während des Diffusionsprozesses beizubehalten. Darüber hinaus benötigt unsere Methode keine zusätzliche Trainingsschritte für diese Bearbeitungen und kann das vorhandene vortrainierte Text-zu-Bild-Diffusionsmodell direkt nutzen.Wir führen umfangreiche Experimente durch und zeigen, dass unsere Methode sowohl bei der Bearbeitung realer als auch synthetischer Bilder bestehende und gleichzeitige Arbeiten übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zero-Shot Bild-zu-Bild-Übersetzung | Paper | HyperAI