Erzeugung von Videos mit dynamikbewussten impliziten generativen adversarialen Netzwerken

In der Ära des tiefen Lernens bleibt die Generierung hochwertiger langer Videos herausfordernd, da sie aufgrund der räumlich-zeitlichen Komplexität und Kontinuität von Videos erhebliche Schwierigkeiten bereitet. Bisherige Ansätze haben versucht, die Verteilung von Videos durch die Darstellung als 3D-Gitter von RGB-Werten zu modellieren, was die Skalierbarkeit der generierten Videos einschränkt und kontinuierliche Dynamiken vernachlässigt. In dieser Arbeit zeigen wir, dass der kürzlich aufkommende Ansatz der impliziten neuronalen Darstellungen (Implicit Neural Representations, INRs), die ein kontinuierliches Signal in ein parametrisiertes neuronales Netzwerk kodieren, diese Herausforderung effektiv abmildern kann. Durch die Nutzung von INRs für Videos stellen wir einen dynamikbewussten impliziten generativen adversarialen Netzwerkansatz (Dynamics-aware Implicit Generative Adversarial Network, DIGAN) vor, ein neuartiges generatives adversariales Netzwerk zur Video-Generierung. Konkret führen wir (a) einen auf INRs basierenden Video-Generator ein, der die Bewegungsdynamik durch unterschiedliche Manipulation von Raum- und Zeitkoordinaten verbessert, sowie (b) einen Bewegungsdiskriminator, der unnatürliche Bewegungen effizient identifiziert, ohne die gesamten langen Frame-Sequenzen beobachten zu müssen. Wir demonstrieren die Überlegenheit von DIGAN an mehreren Datensätzen und zeigen mehrere beeindruckende Eigenschaften, darunter die Synthese langer Videos, die Extrapolation von Videos sowie die nicht-autoregressive Video-Generierung. So verbessert DIGAN den bisherigen Stand der Technik bezüglich des FVD-Scores auf dem UCF-101-Datensatz um 30,7 % und kann auf Videos mit 128 Frames mit einer Auflösung von 128×128 trainiert werden – das entspricht einer Länge von 80 Frames mehr als der bisherige Stand der Technik, der mit 48 Frames arbeitete.