Transformationbasierte adversarische Videovorhersage auf großskaligen Daten

Neueste Durchbrüche in der adversarialen generativen Modellierung haben Modelle ermöglicht, die hochwertige Videobeispiele erzeugen können, selbst auf großen und komplexen Datensätzen realer Videos. In dieser Arbeit konzentrieren wir uns auf die Aufgabe der Videovorhersage, bei der gegeben eine Folge von Bildern aus einem Video eine plausibel erscheinende zukünftige Bildfolge generiert werden soll. Zunächst verbessern wir den Stand der Technik durch eine systematische empirische Untersuchung von Diskriminator-Dezompositionen und stellen eine Architektur vor, die eine schnellere Konvergenz und höhere Leistung als bisherige Ansätze erzielt. Anschließend analysieren wir rekurrente Einheiten im Generator und schlagen eine neuartige rekurrente Einheit vor, die ihren vorherigen versteckten Zustand anhand vorhergesagter bewegungsähnlicher Merkmale transformiert und ihn zur Bewältigung von Verdeckungen (occlusions), Szenenwechseln und anderen komplexen Verhaltensweisen verfeinert. Wir zeigen, dass diese rekurrente Einheit konsistent die bisherigen Entwürfe übertrifft. Unser endgültiges Modell führt zu einem Sprung im Stand der Technik und erreicht auf dem großskaligen Kinetics-600-Datensatz eine Testset-Frechet-Videodistanz von 25,7, gegenüber 69,2 im vorherigen Bestwert.