Ein guter Bildgenerator ist das, was Sie für die Synthese von hochauflösenden Videos benötigen.

Bild- und Videosynthese sind eng verwandte Gebiete, die darauf abzielen, Inhalte aus Rauschen zu generieren. Während in den letzten Jahren erhebliche Fortschritte bei der Verbesserung bilddbasierter Modelle zur Behandlung großer Auflösungen, hochwertiger Darstellungen und großer Variationen im Bildinhalt erzielt wurden, bleibt die Erzielung vergleichbarer Ergebnisse bei der Videogenerierung weiterhin problematisch. Wir präsentieren einen Rahmen, der moderne Bildgeneratoren nutzt, um hochauflösende Videos zu erzeugen. Wir formulieren das Problem der Videosynthese als die Suche nach einer Trajektorie im Latentraum eines vortrainierten und festen Bildgenerators. Dieser Ansatz ermöglicht nicht nur die Erzeugung hochauflösender Videos, sondern ist zudem um eine Größenordnung rechenzeit-effizienter. Wir führen einen Bewegungs-Generator ein, der die gewünschte Trajektorie ermittelt, wobei Inhalt und Bewegung voneinander entkoppelt sind. Mit dieser Darstellung eröffnet unser Framework eine breite Palette an Anwendungen, darunter die Manipulation von Inhalt und Bewegung. Darüber hinaus führen wir eine neue Aufgabe ein, die wir „cross-domain Videogenerierung“ nennen, bei der Bild- und Bewegungs-Generatoren auf disjunkten Datensätzen aus unterschiedlichen Domänen trainiert werden. Dies ermöglicht die Generierung bewegter Objekte, für die die gewünschten Video-Daten nicht verfügbar sind. Umfangreiche Experimente auf verschiedenen Datensätzen belegen die Vorteile unseres Ansatzes gegenüber bestehenden Techniken zur Videogenerierung. Der Quellcode wird unter https://github.com/snap-research/MoCoGAN-HD veröffentlicht.