HyperAIHyperAI
vor 2 Monaten

Auflösungsrobuste große Maskeinmalung mit Fourier-Konvolutionen

Roman Suvorov; Elizaveta Logacheva; Anton Mashikhin; Anastasia Remizova; Arsenii Ashukha; Aleksei Silvestrov; Naejin Kong; Harshith Goka; Kiwoong Park; Victor Lempitsky
Auflösungsrobuste große Maskeinmalung mit Fourier-Konvolutionen
Abstract

Moderne Bildergänzungssysteme (image inpainting systems) haben trotz der erheblichen Fortschritte oft Schwierigkeiten mit großen fehlenden Bereichen, komplexen geometrischen Strukturen und hochaufgelösten Bildern. Wir stellen fest, dass einer der Hauptgründe dafür das Fehlen eines effektiven Rezeptionsfeldes sowohl im Gänzungsnetzwerk als auch in der Verlustfunktion ist. Um dieses Problem zu mildern, schlagen wir eine neue Methode vor, die als große Maske Gänzung (Large Mask Inpainting, LaMa) bezeichnet wird. LaMa basiert auf: i) einer neuen Netzwerkarchitektur für die Gänzung, die schnelle Fourier-Konvolutionen (Fast Fourier Convolutions, FFCs) verwendet, welche ein bildweites Rezeptionsfeld haben; ii) einem Perzeptuellen Verlust mit großem Rezeptionsfeld; iii) großen Trainingsmasken, die das Potenzial der ersten beiden Komponenten freisetzen. Unser Gänzungsnetzwerk verbessert den Stand der Technik über einen breiten Bereich von Datensätzen und erzielt ausgezeichnete Leistungen sogar in anspruchsvollen Szenarien, z.B. bei der Vervollständigung periodischer Strukturen. Unser Modell verallgemeinert überraschend gut auf Auflösungen, die höher sind als jene während des Trainings gesehen wurden, und erreicht dies zu geringeren Parametern- und Zeitkosten im Vergleich zu wettbewerbsfähigen Baselines. Der Code ist unter \url{https://github.com/saic-mdal/lama} verfügbar.

Auflösungsrobuste große Maskeinmalung mit Fourier-Konvolutionen | Neueste Forschungsarbeiten | HyperAI