Quaternionenbasierte generative adversariale Netzwerke

Neueste generative adversative Netzwerke (GANs) erzielen durch eine großskalige Trainingsschulung herausragende Ergebnisse und setzen hierbei Modelle mit Millionen von Parametern ein, die erhebliche Rechenleistung erfordern. Die Entwicklung solch großer Modelle beeinträchtigt deren Reproduzierbarkeit und erhöht die Instabilität während des Trainings. Zudem werden multikanalige Daten, wie Bilder oder Audio, üblicherweise durch reellwertige Faltungsnetzwerke verarbeitet, die die Eingaben flachlegen und verkettet verarbeiten, wodurch oft räumliche Beziehungen innerhalb der Kanäle verloren gehen. Um diese Probleme im Zusammenhang mit Komplexität und Informationsverlust zu lösen, schlagen wir eine Familie quaternionenwertiger generativer adversativer Netzwerke (QGANs) vor. QGANs nutzen die Eigenschaften der Quaternionenalgebra, beispielsweise das Hamilton-Produkt, um Kanäle als eine einzelne Einheit zu verarbeiten und innere latente Beziehungen zu erfassen, wobei die Gesamtanzahl der Parameter um den Faktor 4 reduziert wird. Wir zeigen, wie QGANs entworfen und sogar auf anspruchsvollere Modelle erweitert werden können. Wir vergleichen die vorgeschlagenen QGANs mit ihren reellwertigen Gegenstücken anhand mehrerer Benchmarks für Bildgenerierung. Die Ergebnisse zeigen, dass QGANs bessere FID-Scores erzielen als reellwertige GANs und visuell ansprechende Bilder generieren können. Zudem sparen QGANs bis zu 75 % der Trainingsparameter ein. Wir sind überzeugt, dass diese Ergebnisse den Weg für neuartige, zugänglichere GANs ebnen, die sowohl die Leistungsfähigkeit verbessern als auch Rechenressourcen sparen können.