MoCoGAN: Zerlegung von Bewegung und Inhalt für die Videoerstellung

Visuelle Signale in einem Video können in Inhalt und Bewegung unterteilt werden. Während der Inhalt angibt, welche Objekte im Video zu sehen sind, beschreibt die Bewegung ihre Dynamik. Auf dieser Grundlage schlagen wir das Framework des generativen adversären Netzwerks mit zerlegtem Inhalt und Bewegung (Motion and Content decomposed Generative Adversarial Network, MoCoGAN) für die Videogenerierung vor. Das vorgeschlagene Framework erzeugt ein Video, indem es eine Folge von Zufallsvektoren auf eine Folge von Videobildern abbildet. Jeder Zufallsvektor besteht aus einem Inhaltsanteil und einem Bewegungsanteil. Während der Inhaltsanteil konstant gehalten wird, wird der Bewegungsanteil als stochastischer Prozess realisiert. Um die Zerlegung von Bewegung und Inhalt auf überwachungslose Weise zu lernen, führen wir ein neues adversariales Lernschema ein, das sowohl Bild- als auch Videodiskriminatoren verwendet. Ausführliche experimentelle Ergebnisse auf mehreren anspruchsvollen Datensätzen mit qualitativer und quantitativer Vergleich zur Stand der Technik bestätigen die Effektivität des vorgeschlagenen Frameworks. Darüber hinaus zeigen wir, dass MoCoGAN es ermöglicht, Videos mit demselben Inhalt aber unterschiedlicher Bewegung sowie Videos mit unterschiedlichem Inhalt und derselben Bewegung zu generieren.