Bild-Inpainting durch end-to-end kaskadierte Verfeinerung mit Maskenbewusstsein

Das Inpainting beliebiger fehlender Regionen ist herausfordernd, da die Lernung gültiger Merkmale für unterschiedliche maskierte Bereiche nicht trivial ist. Obwohl U-förmige Encoder-Decoder-Architekturen sich als erfolgreich erwiesen haben, weisen die meisten von ihnen einen gemeinsamen Nachteil auf: die Maskenunempfindlichkeit bei der Merkmalsextraktion. Denn alle Faltungsfenster (bzw. -regionen), einschließlich solcher mit unterschiedlichen Formen fehlender Pixel, werden gleich behandelt und mit fest gelernten Kernen gefiltert. Um diesem Problem entgegenzuwirken, schlagen wir eine neuartige maskenbewusste Inpainting-Lösung vor. Zunächst wird ein Maskenbewusstes Dynamisches Filtermodul (MADF) entworfen, um effektiv mehrskalige Merkmale für fehlende Regionen im Kodierungsphasen zu lernen. Insbesondere werden die Filter für jedes Faltungsfenster aus den Merkmalen der entsprechenden Region der Maske generiert. Die zweite Dimension der Maskenbewusstheit wird durch die Einführung von Punktweiser Normalisierung (PN) in der Dekodierungsphase erreicht, da die statistischen Eigenschaften der Merkmale an maskierten Punkten sich von denen unmaskierter Punkte unterscheiden. Die vorgeschlagene PN löst dieses Problem, indem sie dynamisch skalierende Faktoren und Bias für einzelne Punkte zuweist. Schließlich ist unser Modell als end-to-end kaskadierendes Verbesserungsmodell konzipiert. Supervisionsinformationen wie Rekonstruktionsverlust, Wahrnehmungsverlust und Gesamtvariationssverlust werden schrittweise genutzt, um die Inpainting-Ergebnisse von grob bis fein zu verbessern. Die Wirksamkeit des vorgeschlagenen Ansatzes wird sowohl quantitativ als auch qualitativ durch umfangreiche Experimente auf drei öffentlichen Datensätzen – Places2, CelebA und Paris StreetView – bestätigt.