HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux Inception à transformation de Fourier rapide pour la prédiction de vidéos occluées

Ping Li Chenhan Zhang Xianghua Xu

Résumé

La prédiction vidéo est une tâche au niveau des pixels qui consiste à générer des trames futures à partir de trames historiques. Les vidéos contiennent souvent des mouvements continus complexes, tels que le chevauchement d’objets ou l’occlusion scénique, ce qui pose de grandes difficultés à cette tâche. Les travaux antérieurs échouent généralement à capturer efficacement les dynamiques temporelles à long terme ou ne traitent pas adéquatement les masques d’occlusion. Pour surmonter ces limites, nous proposons un réseau convolutif entièrement entièrement basé sur la transformation de Fourier rapide pour la prédiction vidéo, nommé \textit{FFINet}, comprenant deux composants principaux : l’« inpainter d’occlusion » et le « traducteur spatio-temporel ». Le premier utilise des convolutions rapides de Fourier afin d’élargir le champ réceptif, permettant ainsi de remplir les zones manquantes (occlusion) présentant des structures géométriques complexes. Le second s’appuie sur un module empilé d’inception basé sur la transformation de Fourier pour modéliser l’évolution temporelle via des convolutions par groupes et le déplacement spatial via des convolutions de Fourier par canal, capturant ainsi à la fois les caractéristiques spatio-temporelles locales et globales. Cette approche favorise la génération de trames futures plus réalistes et de haute qualité. Pour optimiser le modèle, une perte de reconstruction est introduite dans la fonction objectif, c’est-à-dire la minimisation de l’erreur quadratique moyenne entre la trame de vérité terrain et la trame reconstruite. Des résultats expérimentaux quantitatifs et qualitatifs sur cinq benchmarks — notamment Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian et KTH — démontrent clairement l’efficacité supérieure de la méthode proposée. Le code source est disponible sur GitHub.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux Inception à transformation de Fourier rapide pour la prédiction de vidéos occluées | Articles | HyperAI