Flexible Diffusion Modeling von langen Videos

Wir präsentieren einen Rahmen für die Videomodellierung basierend auf Noise-Reduction-Diffusions-wahrscheinlichkeitsmodellen, der längere Videosequenzen in einer Vielzahl realistischer Umgebungen erzeugt. Wir führen ein generatives Modell ein, das im Testzeitpunkt beliebige Teilmengen von Videoframes bedingt auf beliebige andere Teilmengen sample kann, und stellen eine hierfür angepasste Architektur vor. Dadurch ermöglichen wir eine effiziente Vergleichs- und Optimierung verschiedener Abfolgen für die Stichprobenziehung von Frames in langen Videos sowie die Nutzung selektiver, spärlicher und langreichweitenbedingter Informationen aus bereits generierten Frames. Wir zeigen eine Verbesserung der Videomodellierung gegenüber vorherigen Ansätzen an mehreren Datensätzen und generieren temporale Kohärenz über 25 Minuten hinweg in den erzeugten Videos. Zudem veröffentlichen wir einen neuen Datensatz für die Videomodellierung sowie semantisch sinnvolle Metriken, die auf in der CARLA-Simulationsumgebung für autonome Fahrzeuge generierten Videos basieren.