HyperAIHyperAI

Command Palette

Search for a command to run...

Ein dynamisches mehrskaliges Voxel-Flow-Netzwerk für die Videovorhersage

Xiaotao Hu Zhewei Huang Ailin Huang Jun Xu Shuchang Zhou

Zusammenfassung

Die Leistungsfähigkeit der Videovorhersage wurde durch fortschrittliche tiefe neuronale Netze erheblich verbessert. Allerdings leiden die meisten aktuellen Methoden unter großen Modellgrößen und erfordern zusätzliche Eingabedaten, beispielsweise semantische oder Tiefenkarten, um eine ansprechende Leistung zu erzielen. Aus Effizienzgründen schlagen wir in diesem Artikel ein dynamisches mehrskaliges Voxel-Fluss-Netzwerk (Dynamic Multi-scale Voxel Flow Network, DMVFN) vor, das eine bessere Videovorhersageleistung bei geringeren Rechenkosten erreicht, wobei lediglich RGB-Bilder als Eingabe verwendet werden – im Vergleich zu früheren Ansätzen. Der Kern unseres DMVFN ist ein differenzierbares Routing-Modul, das die Bewegungsskalen von Videobildern effektiv erfassen kann. Nach der Ausbildung wählt das DMVFN im Inferenzstadium adaptiv Unternetze für verschiedene Eingaben aus. Experimente an mehreren Benchmarks zeigen, dass unser DMVFN um eine Größenordnung schneller ist als Deep Voxel Flow und die aktuellsten iterativen Ansätze wie OPT in Bezug auf die Bildqualität bei der Generierung übertrifft. Der Quellcode und eine Demonstration sind unter https://huxiaotaostasy.github.io/DMVFN/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein dynamisches mehrskaliges Voxel-Flow-Netzwerk für die Videovorhersage | Paper | HyperAI