WavePaint: ressourcenschonender Token-mixer für selbstüberwachtes Inpainting

Bild-Inpainting, also die Synthese fehlender Regionen in einem Bild, kann zur Wiederherstellung verdeckter oder beschädigter Bereiche beitragen und zudem als Vorarbeit für selbstüberwachtes Lernen dienen. Die derzeit fortschrittlichsten Modelle für Bild-Inpainting sind rechenintensiv, da sie auf Transformer- oder CNN-Backbones basieren, die in adversarialen oder Diffusions-Szenarien trainiert werden. In dieser Arbeit unterscheidet sich das vorgestellte Verfahren von Vision-Transformern durch die Verwendung einer recheneffizienten, vollständig konvolutionellen Architektur namens WavePaint, die auf WaveMix basiert. Diese nutzt eine zweidimensionale diskrete Wellen transform (DWT) zur räumlichen und mehrskaligen Token-Mischung in Kombination mit konvolutionellen Schichten. Das vorgeschlagene Modell übertrifft die derzeitigen State-of-the-Art-Modelle im Bereich der Bild-Inpainting hinsichtlich der Rekonstruktionsqualität, während es weniger als die Hälfte der Parameteranzahl benötigt und erheblich kürzere Trainings- und Evaluierungszeiten aufweist. Unser Modell erreicht zudem eine bessere Leistung als aktuelle GAN-basierte Architekturen auf dem CelebA-HQ-Datensatz – und das ohne Verwendung eines adversarisch trainierbaren Diskriminators. Unsere Arbeit zeigt, dass neuronale Architekturen, die nach natürlichen Bildvorwissen gestaltet sind, weniger Parameter und Berechnungen erfordern, um eine Generalisierung zu erreichen, die mit Transformers vergleichbar ist.