Aggregierte kontextuelle Transformationen für die Bildinpainting von hochauflösenden Bildern

Zustandsbestimmende Ansätze im Bereich der Bild-Inpainting leiden häufig unter der Generierung verzerrter Strukturen und verschwommener Texturen in hochauflösenden Bildern (z. B. 512×512). Die Herausforderungen resultieren hauptsächlich aus (1) der Schlussfolgerung von Bildinhalten aus entfernten Kontexten und (2) der feinabgestuften Synthese von Texturen für große fehlende Bereiche. Um diese beiden Herausforderungen zu überwinden, schlagen wir ein verbessertes GAN-basiertes Modell namens Aggregated COntextual-Transformation GAN (AOT-GAN) für die hochauflösende Bild-Inpainting vor. Konkret stärken wir die Kontext-Reasoning-Fähigkeit, indem wir den Generator von AOT-GAN durch Stapelung mehrerer Schichten eines vorgeschlagenen AOT-Blocks aufbauen. Die AOT-Blöcke aggregieren kontextuelle Transformationen aus verschiedenen Empfindlichkeitsfeldern, wodurch sowohl informative ferne Bildkontexte als auch reichhaltige Muster für die Kontextinterpretation erfasst werden können. Zur Verbesserung der Texturen-Synthese erweitern wir den Diskriminator von AOT-GAN durch die Durchführung einer maßgeschneiderten Masken-Vorhersage-Aufgabe während des Trainings. Dieses Trainingsziel zwingt den Diskriminator, die detaillierten Erscheinungsmerkmale echter und synthetischer Patche zu unterscheiden, was wiederum den Generator dazu anregt, klarere Texturen zu generieren. Ausführliche Vergleiche auf dem Places2-Datensatz – dem anspruchsvollsten Benchmark mit 1,8 Millionen hochauflösenden Bildern von 365 komplexen Szenen – zeigen, dass unser Modell die bisherigen State-of-the-Art-Methoden signifikant übertrifft, wobei die FID um 38,60 % reduziert wird. Eine Nutzerstudie mit mehr als 30 Teilnehmern bestätigt zudem die Überlegenheit von AOT-GAN. Wir evaluieren das vorgeschlagene AOT-GAN weiterhin in praktischen Anwendungen wie Logo-Entfernung, Gesichts-Editing und Objektentfernung. Die Ergebnisse zeigen, dass unser Modell in realen Szenarien überzeugende Komplettierungen erzielt. Wir stellen den Quellcode und die Modelle unter https://github.com/researchmm/AOT-GAN-for-Inpainting zur Verfügung.