Auflösungsrobuste große Maskeinmalung mit Fourier-Konvolutionen

Moderne Bildergänzungssysteme (image inpainting systems) haben trotz der erheblichen Fortschritte oft Schwierigkeiten mit großen fehlenden Bereichen, komplexen geometrischen Strukturen und hochaufgelösten Bildern. Wir stellen fest, dass einer der Hauptgründe dafür das Fehlen eines effektiven Rezeptionsfeldes sowohl im Gänzungsnetzwerk als auch in der Verlustfunktion ist. Um dieses Problem zu mildern, schlagen wir eine neue Methode vor, die als große Maske Gänzung (Large Mask Inpainting, LaMa) bezeichnet wird. LaMa basiert auf: i) einer neuen Netzwerkarchitektur für die Gänzung, die schnelle Fourier-Konvolutionen (Fast Fourier Convolutions, FFCs) verwendet, welche ein bildweites Rezeptionsfeld haben; ii) einem Perzeptuellen Verlust mit großem Rezeptionsfeld; iii) großen Trainingsmasken, die das Potenzial der ersten beiden Komponenten freisetzen. Unser Gänzungsnetzwerk verbessert den Stand der Technik über einen breiten Bereich von Datensätzen und erzielt ausgezeichnete Leistungen sogar in anspruchsvollen Szenarien, z.B. bei der Vervollständigung periodischer Strukturen. Unser Modell verallgemeinert überraschend gut auf Auflösungen, die höher sind als jene während des Trainings gesehen wurden, und erreicht dies zu geringeren Parametern- und Zeitkosten im Vergleich zu wettbewerbsfähigen Baselines. Der Code ist unter \url{https://github.com/saic-mdal/lama} verfügbar.