vor 2 Monaten

Zero-Shot Bild-zu-Bild-Übersetzung

Gaurav Parmar; Krishna Kumar Singh; Richard Zhang; Yijun Li; Jingwan Lu; Jun-Yan Zhu

Abstract

Groß angelegte Text-zu-Bild-Generierungsmodelle haben ihre bemerkenswerte Fähigkeit gezeigt, vielfältige und hochwertige Bilder zu synthetisieren. Es ist jedoch weiterhin schwierig, diese Modelle direkt zur Bearbeitung von realen Bildern anzuwenden, aus zwei Gründen. Erstens fällt es den Benutzern schwer, einen perfekten Textanweisung zu formulieren, die jede visuelle Einzelheit des Eingabebildes präzise beschreibt. Zweitens können bestehende Modelle zwar gewünschte Änderungen in bestimmten Bereichen einführen, aber sie verändern oft den Eingabeinhalt dramatisch und führen unerwartete Änderungen in nicht gewünschten Bereichen ein.In dieser Arbeit schlagen wir pix2pix-zero vor, eine Methode zur Bild-zu-Bild-Übersetzung, die den Inhalt des ursprünglichen Bildes ohne manuelles Prompting bewahren kann. Wir entdecken zunächst automatisch Bearbeitungsrichtungen im Texteinbettungsraum, die gewünschte Änderungen widerspiegeln. Um die allgemeine Inhaltsstruktur nach der Bearbeitung zu erhalten, schlagen wir zudem eine Kreuz-Aufmerksamkeitsleitung (cross-attention guidance) vor, deren Ziel es ist, die Kreuz-Aufmerksamkeitskarten des Eingabebildes während des Diffusionsprozesses beizubehalten. Darüber hinaus benötigt unsere Methode keine zusätzliche Trainingsschritte für diese Bearbeitungen und kann das vorhandene vortrainierte Text-zu-Bild-Diffusionsmodell direkt nutzen.Wir führen umfangreiche Experimente durch und zeigen, dass unsere Methode sowohl bei der Bearbeitung realer als auch synthetischer Bilder bestehende und gleichzeitige Arbeiten übertrifft.