HyperAIHyperAI
vor 17 Tagen

Ensembling von vorgefertigten Modellen für die GAN-Trainingsphase

Nupur Kumari, Richard Zhang, Eli Shechtman, Jun-Yan Zhu
Ensembling von vorgefertigten Modellen für die GAN-Trainingsphase
Abstract

Der Aufstieg großer Trainingsszenarien hat eine Fülle leistungsfähiger Modelle für die visuelle Erkennung hervorgebracht. Generative Modelle wie GANs werden jedoch traditionell von Grund auf auf unsupervisierter Basis trainiert. Kann das kollektive „Wissen“ aus einer großen Sammlung vortrainierter visueller Modelle genutzt werden, um den GAN-Trainingsprozess zu verbessern? Und falls ja, welche Modelle sollten aus der Vielzahl ausgewählt werden, und in welcher Weise sind sie am effektivsten einzusetzen? Wir stellen fest, dass vortrainierte Computer-Vision-Modelle die Leistung erheblich steigern können, wenn sie in einer Ensembles von Diskriminatoren eingesetzt werden. Besonders auffällig ist, dass die spezifische Auswahl der Modelle einen entscheidenden Einfluss auf die Leistung hat. Wir schlagen eine effektive Auswahlmechanik vor, die durch die Untersuchung der linearen Trennbarkeit zwischen echten und gefälschten Beispielen in den Embeddings vortrainierter Modelle erfolgt: Dabei wird das genaueste Modell identifiziert und schrittweise dem Diskriminatoren-Ensemble hinzugefügt. Interessanterweise verbessert unsere Methode den GAN-Trainingsprozess sowohl bei begrenzten Datensätzen als auch in großskaligen Szenarien. Mit lediglich 10.000 Trainingsbeispielen erreicht unsere FID auf LSUN Cat die Leistung von StyleGAN2, das auf 1,6 Millionen Bildern trainiert wurde. Auf dem vollständigen Datensatz verbessert unsere Methode die FID um das 1,5- bis 2-fache für die Kategorien Katze, Kirche und Pferd im LSUN-Datensatz.