Temporale Generative Adversarial Nets mit Singulärwertbeschränkung

In dieser Arbeit schlagen wir ein generatives Modell vor, die Temporal Generative Adversarial Nets (TGAN), das eine semantische Repräsentation von nicht annotierten Videos lernen und diese generieren kann. Im Gegensatz zu bestehenden Methoden auf Basis von Generative Adversarial Nets (GAN), die Videos mit einem einzelnen Generator erzeugen, der aus 3D-Deconvolutionschichten besteht, nutzt unser Modell zwei verschiedene Arten von Generatoren: einen zeitlichen Generator und einen Bildgenerator. Der zeitliche Generator nimmt eine einzelne latente Variable als Eingabe entgegen und gibt eine Reihe von latenten Variablen aus, wobei jede dieser Variablen einem Bildframe in einem Video entspricht. Der Bildgenerator transformiert eine solche Reihe von latenten Variablen in ein Video. Um die Instabilität bei der Trainingssicherheit von GANs mit solchen fortschrittlichen Netzen zu bewältigen, greifen wir auf das kürzlich vorgeschlagene Modell Wasserstein GAN zurück und schlagen eine neuartige Methode zur stabilen end-to-end-Ausbildung vor. Die experimentellen Ergebnisse belegen die Effektivität unserer Methoden.