il y a 9 jours

Réseaux Inception à transformation de Fourier rapide pour la prédiction de vidéos occluées

Ping Li, Chenhan Zhang, Xianghua Xu

Résumé

La prédiction vidéo est une tâche au niveau des pixels qui consiste à générer des trames futures à partir de trames historiques. Les vidéos contiennent souvent des mouvements continus complexes, tels que le chevauchement d’objets ou l’occlusion scénique, ce qui pose de grandes difficultés à cette tâche. Les travaux antérieurs échouent généralement à capturer efficacement les dynamiques temporelles à long terme ou ne traitent pas adéquatement les masques d’occlusion. Pour surmonter ces limites, nous proposons un réseau convolutif entièrement entièrement basé sur la transformation de Fourier rapide pour la prédiction vidéo, nommé \textit{FFINet}, comprenant deux composants principaux : l’« inpainter d’occlusion » et le « traducteur spatio-temporel ». Le premier utilise des convolutions rapides de Fourier afin d’élargir le champ réceptif, permettant ainsi de remplir les zones manquantes (occlusion) présentant des structures géométriques complexes. Le second s’appuie sur un module empilé d’inception basé sur la transformation de Fourier pour modéliser l’évolution temporelle via des convolutions par groupes et le déplacement spatial via des convolutions de Fourier par canal, capturant ainsi à la fois les caractéristiques spatio-temporelles locales et globales. Cette approche favorise la génération de trames futures plus réalistes et de haute qualité. Pour optimiser le modèle, une perte de reconstruction est introduite dans la fonction objectif, c’est-à-dire la minimisation de l’erreur quadratique moyenne entre la trame de vérité terrain et la trame reconstruite. Des résultats expérimentaux quantitatifs et qualitatifs sur cinq benchmarks — notamment Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian et KTH — démontrent clairement l’efficacité supérieure de la méthode proposée. Le code source est disponible sur GitHub.