Omni-GAN: Über die Geheimnisse von cGANs hinaus

Der bedingte generative adversarische Netzwerk (cGAN) ist ein leistungsfähiges Werkzeug zur Erzeugung hochwertiger Bilder, doch bestehende Ansätze leiden häufig unter unzureichender Leistung oder dem Risiko einer Moden-Kollaps (mode collapse). In dieser Arbeit wird Omni-GAN vorgestellt, eine Variante des cGAN, die das „Teufelchen“ bei der Gestaltung eines geeigneten Diskriminators für das Training des Modells aufzeigt. Der Schlüssel liegt darin, sicherzustellen, dass der Diskriminator starke Supervision erhält, um Konzepte präzise wahrzunehmen, und gleichzeitig moderate Regularisierung erfährt, um einen Kollaps zu vermeiden. Omni-GAN lässt sich leicht implementieren und kann problemlos mit etablierten Kodierungsverfahren (z. B. implizite neuronale Repräsentation, INR) kombiniert werden. Experimente bestätigen die überlegene Leistung von Omni-GAN und Omni-INR-GAN in einer Vielzahl von Aufgaben zur Bildgenerierung und -restaurierung. Insbesondere erreicht Omni-INR-GAN neue Rekordwerte auf dem ImageNet-Datensatz mit beeindruckenden Inception-Scores von 262,85 und 343,22 bei Bildgrößen von 128 und 256 Pixeln, wobei die vorherigen Rekorde um mehr als 100 Punkte übertroffen werden. Darüber hinaus ermöglicht die Nutzung des Generator-Priors, dass Omni-INR-GAN Bilder mit niedriger Auflösung auf beliebige Auflösungen extrapolieren kann – selbst bis zu mehr als 60-facher Auflösungserhöhung. Der Quellcode ist verfügbar.