HyperAIHyperAI

Command Palette

Search for a command to run...

Schnelle Fourier-Inception-Netze für die Vorhersage occludierter Videos

Ping Li Chenhan Zhang Xianghua Xu

Zusammenfassung

Die Videovorhersage ist eine pixelbasierte Aufgabe, bei der zukünftige Frames mithilfe historischer Frames generiert werden. In Videos treten oft kontinuierliche, komplexe Bewegungen auf, wie beispielsweise Objektüberlagerungen und Szenenverdeckungen (Occlusion), was dieser Aufgabe erhebliche Herausforderungen stellt. Bisherige Ansätze gelingen entweder nicht ausreichend, die langfristigen zeitlichen Dynamiken zu erfassen, oder berücksichtigen die Occlusion-Masken nicht angemessen. Um diese Probleme zu lösen, entwickeln wir die vollständig konvolutionale Fast-Fourier-Inception-Netzwerke für die Videovorhersage, kurz \textit{FFINet} genannt, die zwei zentrale Komponenten umfasst: den Occlusion-Inpainter und den räumlich-zeitlichen Übersetzer. Der erste verwendet Fast-Fourier-Konvolutionen, um den Empfangsfeldbereich zu vergrößern, sodass fehlende Bereiche (Occlusion) mit komplexen geometrischen Strukturen durch den Inpainter effektiv ausgefüllt werden können. Der zweite nutzt einen gestapelten Fourier-Transform-Inception-Modul, um die zeitliche Entwicklung mittels Gruppen-Konvolutionen und die räumliche Bewegung mittels kanalweiser Fourier-Konvolutionen zu lernen, wodurch sowohl lokale als auch globale räumlich-zeitliche Merkmale erfasst werden. Dies fördert die Generierung realistischerer und qualitativ hochwertiger zukünftiger Frames. Zur Optimierung des Modells wird eine Wiederherstellungsverlustfunktion (Recovery Loss) in das Ziel eingeführt, d. h., die Minimierung des mittleren quadratischen Fehlers zwischen dem Referenzframe und dem rekonstruierten Frame. Quantitative und qualitative Experimente an fünf Benchmarks – darunter Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian und KTH – belegen die Überlegenheit des vorgeschlagenen Ansatzes. Der Quellcode ist auf GitHub verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp