HyperAIHyperAI
vor 9 Tagen

SDC-Net: Videovorhersage mittels räumlich verschobener Faltung

{Kevin J. Shih, Jon Barker, Andrew Tao, Robert Kirby, Guilin Liu, Fitsum A. Reda, David Tarjan, Bryan Catanzaro}
SDC-Net: Videovorhersage mittels räumlich verschobener Faltung
Abstract

Wir präsentieren einen Ansatz zur Vorhersage hochauflösender Videobilder, der sowohl auf vergangenen Bildern als auch auf vergangenen optischen Flüssen bedingt ist. Bisherige Ansätze beruhen entweder auf der Neusampling von vergangenen Bildern, gesteuert durch eine gelernte zukünftige optische Flussfeld, oder auf der direkten Generierung von Pixeln. Das Neusampling basierend auf optischen Flüssen ist unzureichend, da es keine sogenannten Disokklusionen (Bereiche, die im vorherigen Frame nicht sichtbar waren) korrekt behandeln kann. Generative Modelle führen derzeit zu verschwommenen Ergebnissen. Kürzlich vorgestellte Ansätze synthetisieren ein Pixel, indem sie Eingabepatches mit einem vorhergesagten Kernel faltend (convolvieren). Allerdings steigt der Speicherverbrauch dieser Ansätze mit der Größe des Kernels deutlich an. Hier stellen wir ein modulares Verfahren namens räumlich verschobene Faltung (spatially-displaced convolution, SDC) für die Vorhersage von Videobildern vor. Wir lernen für jedes Pixel einen Bewegungsvektor und einen Kernel und synthetisieren ein Pixel, indem wir den Kernel an einer verschobenen Stelle im Quellbild anwenden, die durch den vorhergesagten Bewegungsvektor definiert ist. Unser Ansatz vereint die Vorteile von vektorbasierten und kernelbasierten Ansätzen und überwindet deren jeweilige Nachteile. Wir trainieren unser Modell auf 428.000 ungelabelten Videobildern mit 1080p-Auflösung aus Videospielen. Unser Ansatz erzielt state-of-the-art Ergebnisse, wobei wir eine SSIM-Score von 0,904 auf hochauflösenden YouTube-8M-Videos und 0,918 auf Caltech-Pedestrian-Videos erreichen. Unser Modell bewältigt große Bewegungen effektiv und erzeugt scharfe Bilder mit konsistenter Bewegung.

SDC-Net: Videovorhersage mittels räumlich verschobener Faltung | Neueste Forschungsarbeiten | HyperAI