Direkte Invertierung: Verbesserung der diffusionsbasierten Bearbeitung mit 3 Zeilen Code

Textgesteuerte Diffusionsmodelle haben die Bildgenerierung und -bearbeitung revolutioniert und bieten eine außergewöhnliche Realitätstreue und Vielfalt. Insbesondere im Kontext der diffusionsbasierten Bearbeitung, bei der ein Quellbild gemäß einem Zielanweisung bearbeitet wird, beginnt der Prozess damit, einen verrauschten Latenten Vektor zu erzeugen, der dem Quellbild entspricht, mithilfe des Diffusionsmodells. Dieser Vektor wird anschließend in getrennte Quell- und Ziel-Diffusionsäste eingespeist, um die Bearbeitung durchzuführen. Die Genauigkeit dieses Inversionsprozesses hat einen erheblichen Einfluss auf das endgültige Bearbeitungsergebnis und beeinflusst sowohl die Erhaltung wesentlicher Inhalte des Quellbilds als auch die Bearbeitungstreue gemäß der Zielanweisung. Frühere Inversionsmethoden strebten danach, eine einheitliche Lösung in beiden Diffusionsästen zu finden. Unser theoretische und empirische Analysen zeigen jedoch, dass das Trennen dieser Äste zu einer klaren Aufgabenverteilung führt: zum einen die Erhaltung wesentlicher Inhalte und zum anderen die Sicherstellung der Bearbeitungstreue. Basierend auf diesem Erkenntnis führen wir "Direkte Inversion" (Direct Inversion) ein, eine neuartige Technik, die mit nur drei Codezeilen optimale Leistung beider Äste erreicht. Um die Leistung von Bildbearbeitungsverfahren zu bewerten, präsentieren wir PIE-Bench, eine Benchmark für Bildbearbeitungen mit 700 Bildern, die verschiedene Szenarien und Bearbeitungsarten darstellen. Diese Benchmark ist durch vielseitige Annotationen und umfassende Evaluationsmetriken ergänzt. Im Vergleich zu den besten Optimierungsbasierten Inversionsmethoden erzielt unsere Lösung nicht nur überlegenere Ergebnisse in 8 verschiedenen Bearbeitungsverfahren, sondern bietet auch nahezu eine Größenordnung an Geschwindigkeitsvorteil.请注意,我已将“Direct Inversion”翻译为“Direkte Inversion”,并在其后括号标注了原文以确保信息完整。同时,我也将“PIE-Bench”直接翻译为“PIE-Bench”,因为这是一个专有名词,通常不会进行翻译。