HyperAIHyperAI
vor 2 Monaten

Video-to-Video Synthese

Ting-Chun Wang; Ming-Yu Liu; Jun-Yan Zhu; Guilin Liu; Andrew Tao; Jan Kautz; Bryan Catanzaro
Video-to-Video Synthese
Abstract

Wir untersuchen das Problem der Video-zu-Video-Synthese, dessen Ziel es ist, eine Abbildungsfunktion von einem Eingabevideo (z.B. einer Sequenz semantischer Segmentierungsmasken) zu einem photorealistischen Ausgabevideo zu lernen, das den Inhalt des Eingabevideos präzise darstellt. Während das Bild-zu-Bild-Synthese-Problem ein beliebtes Thema ist, wird das Video-zu-Video-Synthese-Problem in der Literatur weniger erforscht. Ohne das Verständnis der zeitlichen Dynamik führt die direkte Anwendung bestehender Bildsynthesemethoden auf ein Eingabevideo oft zu zeitlich inkohärenten Videos mit geringer visueller Qualität. In diesem Artikel schlagen wir einen neuen Ansatz für die Video-zu-Video-Synthese vor, der auf dem Rahmenwerk des generativen adversären Lernens basiert. Durch sorgfältig gestaltete Generator- und Diskriminator-Architekturen sowie ein räumlich-zeitliches adversäres Ziel erreichen wir hochaufgelöste, photorealistische und zeitlich kohärente Videounterlagen bei einer Vielzahl von Eingabeformaten, einschließlich Segmentierungsmasken, Skizzen und Posen. Experimente mit mehreren Benchmarks zeigen den Vorteil unserer Methode im Vergleich zu starken Baselines. Insbesondere ist unser Modell in der Lage, 2K-Auflösungs-Videos von Straßenszenen bis zu 30 Sekunden Länge zu synthetisieren, was den Stand der Technik bei der Videosynthese erheblich vorantreibt. Schließlich wenden wir unseren Ansatz zur zukünftigen Videovorhersage an und übertreffen dabei mehrere state-of-the-art konkurrierende Systeme.

Video-to-Video Synthese | Neueste Forschungsarbeiten | HyperAI