HyperAIHyperAI

Command Palette

Search for a command to run...

SDC-Net: Videovorhersage mittels räumlich verschobener Faltung

Kevin J. Shih Jon Barker Andrew Tao Robert Kirby Guilin Liu Fitsum A. Reda David Tarjan Bryan Catanzaro

Zusammenfassung

Wir präsentieren einen Ansatz zur Vorhersage hochauflösender Videobilder, der sowohl auf vergangenen Bildern als auch auf vergangenen optischen Flüssen bedingt ist. Bisherige Ansätze beruhen entweder auf der Neusampling von vergangenen Bildern, gesteuert durch eine gelernte zukünftige optische Flussfeld, oder auf der direkten Generierung von Pixeln. Das Neusampling basierend auf optischen Flüssen ist unzureichend, da es keine sogenannten Disokklusionen (Bereiche, die im vorherigen Frame nicht sichtbar waren) korrekt behandeln kann. Generative Modelle führen derzeit zu verschwommenen Ergebnissen. Kürzlich vorgestellte Ansätze synthetisieren ein Pixel, indem sie Eingabepatches mit einem vorhergesagten Kernel faltend (convolvieren). Allerdings steigt der Speicherverbrauch dieser Ansätze mit der Größe des Kernels deutlich an. Hier stellen wir ein modulares Verfahren namens räumlich verschobene Faltung (spatially-displaced convolution, SDC) für die Vorhersage von Videobildern vor. Wir lernen für jedes Pixel einen Bewegungsvektor und einen Kernel und synthetisieren ein Pixel, indem wir den Kernel an einer verschobenen Stelle im Quellbild anwenden, die durch den vorhergesagten Bewegungsvektor definiert ist. Unser Ansatz vereint die Vorteile von vektorbasierten und kernelbasierten Ansätzen und überwindet deren jeweilige Nachteile. Wir trainieren unser Modell auf 428.000 ungelabelten Videobildern mit 1080p-Auflösung aus Videospielen. Unser Ansatz erzielt state-of-the-art Ergebnisse, wobei wir eine SSIM-Score von 0,904 auf hochauflösenden YouTube-8M-Videos und 0,918 auf Caltech-Pedestrian-Videos erreichen. Unser Modell bewältigt große Bewegungen effektiv und erzeugt scharfe Bilder mit konsistenter Bewegung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SDC-Net: Videovorhersage mittels räumlich verschobener Faltung | Paper | HyperAI