CR-Fill: Generative Image Inpainting mit ergänzender kontextueller Rekonstruktion

Neuere tiefe generative Inpainting-Methoden nutzen Aufmerksamkeitslayer, um dem Generator explizit zu ermöglichen, Merkmalspatches aus dem bekannten Bereich zu entlehnen, um eine fehlende Region zu vervollständigen. Aufgrund des Fehlens von Überwachungssignalen für die Korrespondenz zwischen fehlenden und bekannten Bereichen kann der Generator gegebenenfalls keine geeigneten Referenzmerkmale finden, was häufig zu Artefakten in den Ergebnissen führt. Zudem erzeugt die Berechnung der paarweisen Ähnlichkeit über die gesamte Merkmalskarte während der Inferenz erhebliche Rechenkosten. Um dieses Problem anzugehen, schlagen wir vor, ein aufmerksamkeitsfreies Generatormodell durch gemeinsames Training einer zusätzlichen kontextuellen Rekonstruktionsaufgabe mit diesem Patch-Entlehnungsverhalten zu vertrauen. Dadurch wird die generierte Ausgabe ermutigt, plausibel zu sein, selbst wenn sie ausschließlich durch benachbarte Bereiche rekonstruiert wird. Der zusätzliche Zweig kann als lernbare Verlustfunktion aufgefasst werden, die wir kontextuelle Rekonstruktions-(CR)-Verlust nennen. Dabei werden die Ähnlichkeit zwischen Abfrage- und Referenzmerkmalen sowie der referenzbasierte Rekonstruktor gemeinsam mit dem Inpainting-Generator optimiert. Der zusätzliche Zweig (d. h. der CR-Verlust) ist lediglich während des Trainings erforderlich; zur Inferenz wird lediglich der Inpainting-Generator benötigt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Inpainting-Modell sowohl quantitativ als auch qualitativ gegenüber den aktuellen State-of-the-Art-Methoden besticht. Der Quellcode ist unter https://github.com/zengxianyu/crfill verfügbar.