HyperAIHyperAI
il y a 2 mois

VideoFlow : Un modèle basé sur un flux conditionnel pour la génération stochastique de vidéos

Manoj Kumar; Mohammad Babaeizadeh; Dumitru Erhan; Chelsea Finn; Sergey Levine; Laurent Dinh; Durk Kingma
VideoFlow : Un modèle basé sur un flux conditionnel pour la génération stochastique de vidéos
Résumé

Les modèles génératifs capables de modéliser et de prédire des séquences d'événements futurs peuvent, en principe, apprendre à capturer des phénomènes complexes du monde réel, tels que les interactions physiques. Cependant, un défi central dans la prédiction vidéo est que l'avenir est hautement incertain : une séquence d'observations passées d'événements peut impliquer de nombreuses possibilités futures. Bien que plusieurs travaux récents aient étudié des modèles probabilistes capables de représenter des futurs incertains, ces modèles sont soit extrêmement coûteux sur le plan computationnel, comme c'est le cas pour les modèles autorégressifs au niveau des pixels, soit ne pas optimiser directement la vraisemblance des données. À notre connaissance, notre travail est le premier à proposer une prédiction vidéo multi-images avec des flux normalisants (normalizing flows), ce qui permet une optimisation directe de la vraisemblance des données et génère des prédictions stochastiques de haute qualité. Nous décrivons une approche pour modéliser la dynamique de l'espace latent et démontrons que les modèles génératifs basés sur les flux offrent une solution viable et compétitive pour la modélisation générative de vidéos.

VideoFlow : Un modèle basé sur un flux conditionnel pour la génération stochastique de vidéos | Articles de recherche récents | HyperAI