Processus de décision de Markov pour la génération vidéo

Nous identifions deux cas pathologiques d'incohérences temporelles dans la génération vidéo : le gel vidéo et la boucle vidéo. Pour mieux quantifier la diversité temporelle, nous proposons une classe de métriques complémentaires, efficaces, faciles à implémenter, indépendantes des données et interprétables. Par ailleurs, nous observons que les modèles d'état de l'art actuels sont entraînés sur des échantillons vidéo de longueur fixe, ce qui limite leur capacité à modéliser à long terme. Pour remédier à cela, nous reformulons le problème de la génération vidéo comme un Processus de Décision Markovien (MDP). L'idée fondamentale consiste à représenter le mouvement comme un processus stochastique avec un horizon de prévision infini, afin de surmonter la contrainte de longueur fixe et de réduire la présence d'artefacts temporels. Nous montrons que notre formulation peut être facilement intégrée dans le cadre d'état de l'art MoCoGAN. Nos expériences sur les jeux de données Human Actions et UCF-101 démontrent que notre modèle basé sur le MDP est plus efficace en mémoire et améliore la qualité vidéo, tant selon les nouvelles métriques que selon les métriques établies.