Zur Verbesserung der Bildinpainting-Technik: Verminderung unerwünschter Objekteinschachtelung und Erhalt der Farbkonsistenz

Neuere Fortschritte im Bild-Inpainting nutzen zunehmend generative Modelle, um große, unregelmäßige Masken zu bearbeiten. Allerdings können diese Modelle unrealistische Inpainting-Ergebnisse erzeugen, hauptsächlich aufgrund zweier zentraler Probleme: (1) Unbefugte Objektinsertion: Selbst wenn unmaskierte Bereiche als Kontext dienen, können generative Modelle beliebige Objekte im maskierten Bereich generieren, die mit dem Rest des Bildes nicht konsistent sind. (2) Farbinkonsistenz: Die inpainteten Regionen weisen oft Farbverschiebungen auf, was zu einem verschmierten Erscheinungsbild führt und die Bildqualität beeinträchtigt. Eine Neuausrichtung des generativen Modells könnte diese Probleme beheben, ist jedoch kostspielig, da state-of-the-art-Modelle auf latenter Basis, wie latente Diffusions- und rectified Flow-Modelle, einen dreistufigen Trainingsprozess erfordern: die Ausbildung eines VAE, die Ausbildung eines generativen U-Net oder Transformers sowie eine Feinabstimmung für das Inpainting. Stattdessen schlägt dieser Artikel einen Nachbearbeitungsansatz vor, der als ASUKA (Aligned Stable inpainting with UnKnown Areas prior) bezeichnet wird, um bestehende Inpainting-Modelle zu verbessern. Um die unerwünschte Objektinsertion zu bekämpfen, nutzen wir einen Masked Auto-Encoder (MAE) zur Gewinnung von rekonstruktionsbasierten Priorisierungen. Dies verringert die Halluzination von Objekten und bewahrt gleichzeitig die Generierungsfähigkeiten des Modells. Um die Farbinkonsistenz zu verbessern, schlagen wir einen spezialisierten VAE-Decoder vor, der die latente-zu-Bild-Entschlüsselung als lokale Harmonisierungsaufgabe betrachtet, wodurch sich Farbverschiebungen signifikant reduzieren und ein farbkonsistentes Inpainting ermöglicht wird. Wir validieren ASUKA an den Inpainting-Varianten von SD 1.5 und FLUX anhand der Datensätze Places2 sowie MISATO, unser vorgeschlagenes, vielfältiges Datensatz-Kollektiv. Die Ergebnisse zeigen, dass ASUKA sowohl die Objekthalluzination verringert als auch die Farbkonsistenz im Vergleich zu herkömmlichen Diffusions- und rectified Flow-Modellen sowie anderen Inpainting-Methoden deutlich verbessert.