vor 8 Tagen

Markov-Entscheidungsprozess für die Videogenerierung

Vladyslav Yushchenko, Nikita Araslanov, Stefan Roth

Abstract

Wir identifizieren zwei pathologische Fälle zeitlicher Inkonsistenzen bei der Videogenerierung: Videofreeze und Videoloop. Um die zeitliche Vielfalt besser quantifizieren zu können, schlagen wir eine Klasse ergänzender Metriken vor, die effektiv, einfach implementierbar, datenunabhängig und interpretierbar sind. Weiterhin beobachten wir, dass aktuelle State-of-the-Art-Modelle auf Videobeispielen fester Länge trainiert werden, was eine langfristige Modellierung behindert. Um dies zu beheben, reformulieren wir das Problem der Videogenerierung als Markov-Entscheidungsprozess (MDP). Der zugrundeliegende Ansatz besteht darin, Bewegung als stochastischen Prozess mit unendlichem Vorhersagehorizont darzustellen, um die Beschränkung auf feste Längen zu überwinden und zeitliche Artefakte zu reduzieren. Wir zeigen, dass unsere Formulierung problemlos in den aktuellen State-of-the-Art-Framework MoCoGAN integriert werden kann. Unsere Experimente auf den Datensätzen Human Actions und UCF-101 belegen, dass unser MDP-basiertes Modell effizienter im Speicherverbrauch ist und die Videqualität sowohl hinsichtlich neuer als auch etablierter Metriken verbessert.