vor 9 Tagen

Schnelle Fourier-Inception-Netze für die Vorhersage occludierter Videos

Ping Li, Chenhan Zhang, Xianghua Xu

Abstract

Die Videovorhersage ist eine pixelbasierte Aufgabe, bei der zukünftige Frames mithilfe historischer Frames generiert werden. In Videos treten oft kontinuierliche, komplexe Bewegungen auf, wie beispielsweise Objektüberlagerungen und Szenenverdeckungen (Occlusion), was dieser Aufgabe erhebliche Herausforderungen stellt. Bisherige Ansätze gelingen entweder nicht ausreichend, die langfristigen zeitlichen Dynamiken zu erfassen, oder berücksichtigen die Occlusion-Masken nicht angemessen. Um diese Probleme zu lösen, entwickeln wir die vollständig konvolutionale Fast-Fourier-Inception-Netzwerke für die Videovorhersage, kurz \textit{FFINet} genannt, die zwei zentrale Komponenten umfasst: den Occlusion-Inpainter und den räumlich-zeitlichen Übersetzer. Der erste verwendet Fast-Fourier-Konvolutionen, um den Empfangsfeldbereich zu vergrößern, sodass fehlende Bereiche (Occlusion) mit komplexen geometrischen Strukturen durch den Inpainter effektiv ausgefüllt werden können. Der zweite nutzt einen gestapelten Fourier-Transform-Inception-Modul, um die zeitliche Entwicklung mittels Gruppen-Konvolutionen und die räumliche Bewegung mittels kanalweiser Fourier-Konvolutionen zu lernen, wodurch sowohl lokale als auch globale räumlich-zeitliche Merkmale erfasst werden. Dies fördert die Generierung realistischerer und qualitativ hochwertiger zukünftiger Frames. Zur Optimierung des Modells wird eine Wiederherstellungsverlustfunktion (Recovery Loss) in das Ziel eingeführt, d. h., die Minimierung des mittleren quadratischen Fehlers zwischen dem Referenzframe und dem rekonstruierten Frame. Quantitative und qualitative Experimente an fünf Benchmarks – darunter Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian und KTH – belegen die Überlegenheit des vorgeschlagenen Ansatzes. Der Quellcode ist auf GitHub verfügbar.