HyperAIHyperAI
il y a 8 jours

Modélisation flexible de diffusion pour vidéos longues

William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood
Modélisation flexible de diffusion pour vidéos longues
Résumé

Nous présentons un cadre pour la modélisation vidéo fondé sur des modèles probabilistes de diffusion à débruitage, capable de produire des complétions vidéo de longue durée dans divers environnements réalistes. Nous introduisons un modèle génératif pouvant, au moment du test, échantillonner n’importe quelle sous-partie arbitraire de cadres vidéo conditionnellement à n’importe quelle autre sous-partie, et proposons une architecture adaptée à cet objectif. Cette approche permet de comparer efficacement et d’optimiser diverses stratégies d’ordre d’échantillonnage des cadres dans une vidéo longue, tout en permettant une conditionnement sélectif, sparse et à longue portée sur les cadres déjà échantillonnés. Nous démontrons une amélioration significative de la modélisation vidéo par rapport aux travaux antérieurs sur plusieurs jeux de données, et générons des vidéos temporellement cohérentes d’une durée dépassant 25 minutes. En outre, nous mettons à disposition un nouveau jeu de données pour la modélisation vidéo ainsi que des métriques sémantiquement pertinentes basées sur des vidéos générées dans le simulateur d’automatisation CARLA.

Modélisation flexible de diffusion pour vidéos longues | Articles de recherche récents | HyperAI