Verbesserung von GANs für langschwänzige Daten durch Gruppenspektralregularisierung

Deep Long-Tailed Learning zielt darauf ab, nützliche tiefe Netzwerke auf praktischen, realen unbalancierten Verteilungen zu trainieren, bei denen die meisten Etiketten der Tail-Klassen mit nur wenigen Beispielen assoziiert sind. Es gibt eine große Anzahl von Arbeiten, die sich mit dem Training diskriminativer Modelle für die visuelle Erkennung auf langen Schwänzen-Verteilungen beschäftigen. Im Gegensatz dazu befassen wir uns mit dem Training von bedingten Generativen adversarialen Netzwerken (conditional Generative Adversarial Networks), einer Klasse von Bildgenerationsmodellen, auf langen Schwänzen-Verteilungen. Wir stellen fest, dass auch state-of-the-art-Methoden für die Bildgenerierung, ähnlich wie bei der Erkennung, unter Leistungsabfall bei Tail-Klassen leiden. Dieser Leistungsabfall ist hauptsächlich auf eine klassenspezifische Mode-Kollaps-Problematik bei Tail-Klassen zurückzuführen, die wir mit einem spektralen Explosion des Bedingungsparameter-Matrizen korreliert beobachten. Wir schlagen einen neuartigen Gruppen-Spektral-Regularisator (group Spectral Regularizer, gSR) vor, der die spektrale Explosion verhindert und somit den Mode-Kollaps lindert, was zu vielfältiger und plausibler Bildgenerierung – auch für Tail-Klassen – führt. Wir beobachten, dass gSR effektiv mit bestehenden Augmentations- und Regularisierungstechniken kombiniert werden kann, was zu state-of-the-art-Leistungen bei der Bildgenerierung auf langen Schwänzen-Daten führt. Umfassende Experimente belegen die Wirksamkeit unseres Regularisators auf langen Schwänzen-Datensätzen mit unterschiedlichem Grad an Unbalanciertheit.