CM-GAN: Bild-Inpainting mit kaskadiertem Modulation-GAN und objektbewusstem Training

Neuere Methoden zur Bildinpainting haben erhebliche Fortschritte erzielt, stoßen jedoch häufig bei der Generierung plausibler Bildstrukturen angesichts großer Löcher in komplexen Bildern an ihre Grenzen. Dies liegt teilweise an der fehlenden effektiven Netzwerkarchitektur, die sowohl langreichweitige Abhängigkeiten als auch hochwertige Semantik eines Bildes erfassen kann. Wir stellen CM-GAN (Cascaded Modulation Generative Adversarial Network), eine neue Netzwerkarchitektur vor, die aus einem Encoder mit Fourier-Konvolutionsschichten besteht, welche mehrskalige Merkmalsrepräsentationen aus dem eingehenden Bild mit Löchern extrahiert, sowie einem dualen Stream-Decoder mit einem neuartigen kaskadierten global-spatialen Modulationsblock auf jeder Skalenebene. In jedem Decoder-Block wird zunächst eine globale Modulation angewandt, um eine grobe, semantikbewusste Struktursynthese durchzuführen, gefolgt von einer räumlichen Modulation, die die Merkmalskarte räumlich adaptiv weiter anpasst. Zudem entwickeln wir ein objektbewusstes Trainingsverfahren, um zu verhindern, dass das Netzwerk neue Objekte innerhalb der Löcher halluciniert, was den Anforderungen an Objekterfassungsaufgaben in realen Szenarien entspricht. Umfassende Experimente zeigen, dass unsere Methode sowohl quantitativ als auch qualitativ signifikant gegenüber bestehenden Ansätzen übertrifft. Weitere Informationen finden Sie auf der Projektseite: \url{https://github.com/htzheng/CM-GAN-Inpainting}.