Ein dynamisches mehrskaliges Voxel-Flow-Netzwerk für die Videovorhersage

Die Leistungsfähigkeit der Videovorhersage wurde durch fortschrittliche tiefe neuronale Netze erheblich verbessert. Allerdings leiden die meisten aktuellen Methoden unter großen Modellgrößen und erfordern zusätzliche Eingabedaten, beispielsweise semantische oder Tiefenkarten, um eine ansprechende Leistung zu erzielen. Aus Effizienzgründen schlagen wir in diesem Artikel ein dynamisches mehrskaliges Voxel-Fluss-Netzwerk (Dynamic Multi-scale Voxel Flow Network, DMVFN) vor, das eine bessere Videovorhersageleistung bei geringeren Rechenkosten erreicht, wobei lediglich RGB-Bilder als Eingabe verwendet werden – im Vergleich zu früheren Ansätzen. Der Kern unseres DMVFN ist ein differenzierbares Routing-Modul, das die Bewegungsskalen von Videobildern effektiv erfassen kann. Nach der Ausbildung wählt das DMVFN im Inferenzstadium adaptiv Unternetze für verschiedene Eingaben aus. Experimente an mehreren Benchmarks zeigen, dass unser DMVFN um eine Größenordnung schneller ist als Deep Voxel Flow und die aktuellsten iterativen Ansätze wie OPT in Bezug auf die Bildqualität bei der Generierung übertrifft. Der Quellcode und eine Demonstration sind unter https://huxiaotaostasy.github.io/DMVFN/ verfügbar.