Generierung von kontinuierlichen Bildern durch Angriffe

In den meisten bestehenden Lernsystemen werden Bilder typischerweise als 2D-Pixel-Arrays betrachtet. In einem anderen, zunehmend populären Paradigma wird ein 2D-Bild hingegen als implizite neuronale Darstellung (Implicit Neural Representation, INR) dargestellt – eine MLP, die anhand der Koordinaten (x,y) einen RGB-Pixelwert vorhersagt. In diesem Paper stellen wir zwei neuartige architektonische Techniken zur Entwicklung von INR-basierten Bild-Decodern vor: faktorisierte multiplikative Modulation und mehrskalige INRs – und nutzen diese, um einen state-of-the-art kontinuierlichen Bild-GAN zu konstruieren. Frühere Versuche, INRs für die Bildgenerierung einzusetzen, waren auf Datensätze wie MNIST beschränkt und skalierten nicht auf komplexe, realweltbezogene Daten. Unser vorgeschlagener INR-GAN-Architektur verbessert die Leistung kontinuierlicher Bildgeneratoren um mehrere Größenordnungen und verringert somit erheblich die Lücke zwischen kontinuierlichen Bild-GANs und pixelbasierten Ansätzen. Darüber hinaus untersuchen wir mehrere aufregende Eigenschaften der INR-basierten Decodern, wie beispielsweise Out-of-the-Box-Superresolution, sinnvolle Interpolation im Bildraum, beschleunigtes Inferenzverhalten für niedrigauflösende Bilder, die Fähigkeit, außerhalb der Bildgrenzen zu extrapolieren, sowie einen starken geometrischen Prior. Die Projektseite befindet sich unter https://universome.github.io/inr-gan.