HyperAIHyperAI
il y a 9 jours

Réseaux de neurones récurrents Z-Order pour la prédiction vidéo

{Philip S Yu, Wang Jianmin, Mingsheng Long, Yunbo Wang, Jianjin Zhang}
Résumé

Nous présentons un réseau de neurones récurrents basé sur l’ordre Z (Znet) pour la prédiction de cadres vidéo futurs à partir d’observations historiques. Cette étude apporte deux contributions majeures, respectivement du point de vue de la modélisation déterministe et stochastique. Premièrement, nous proposons une nouvelle architecture de réseau de neurones récurrents pour modéliser les dynamiques déterministes, qui met à jour les états cachés le long d’une courbe de type z-order afin d’améliorer la cohérence des caractéristiques des couches miroir. Deuxièmement, nous introduisons une approche d’entraînement adversarial pour un Znet à deux flux, permettant de modéliser les variations stochastiques, en forçant le Znet-Predictor à imiter le comportement du Znet-Probe. Cette architecture à deux flux permet de mener l’entraînement adversarial dans l’espace des caractéristiques plutôt que dans l’espace des images. Notre modèle atteint une précision de prédiction de pointe sur deux jeux de données vidéo.