Sparsam trainieren, dicht generieren: Speichereffiziente unsupervisierte Trainierung von hochaufgelösten zeitlichen GAN

Die Ausbildung von Generativen Wettbewerbsnetzen (GANs) an einem Videodatensatz ist eine Herausforderung aufgrund der enormen Größe des Datensatzes und der Komplexität jeder Beobachtung. Im Allgemeinen steigt die Rechenkosten für das Training von GANs exponentiell mit der Auflösung. In dieser Studie stellen wir eine neuartige, speichereffiziente Methode vor, die es ermöglicht, ein hochauflösendes Videodatensatz unüberwacht zu lernen, wobei die Rechenkosten nur linear mit der Auflösung steigen. Dies erreichen wir durch die Gestaltung des Generator-Modells als Stapel kleiner Unter-Generatoren und das Training des Modells auf eine bestimmte Weise. Wir trainieren jeden Unter-Generator mit seinem eigenen spezifischen Diskriminator. Während des Trainings führen wir zwischen jedem Paar aufeinanderfolgender Unter-Generatoren eine zusätzliche Subsampling-Schicht ein, die die Bildfrequenz um einen bestimmten Faktor reduziert. Dieses Verfahren ermöglicht es jedem Unter-Generator, die Verteilung des Videos auf verschiedenen Auflösungsstufen zu erlernen. Zudem benötigen wir nur wenige GPUs, um einen hochkomplexen Generator zu trainieren, der den Vorgänger hinsichtlich der Inception-Scores deutlich übertrifft.