HyperAIHyperAI
il y a 7 jours

Modèles de diffusion pour la prédiction vidéo et le remplissage de données

Tobias Höppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi
Modèles de diffusion pour la prédiction vidéo et le remplissage de données
Résumé

Prédire et anticiper des résultats futurs ou raisonner sur des informations manquantes dans une séquence constituent des compétences essentielles pour permettre aux agents de prendre des décisions intelligentes. Cela exige des capacités génératives puissantes et cohérentes dans le temps. Les modèles de diffusion ont démontré un succès remarquable dans diverses tâches génératives, mais leur exploration dans le domaine vidéo reste limitée. Nous présentons Random-Mask Video Diffusion (RaMViD), une extension des modèles de diffusion d’images aux vidéos, basée sur des convolutions 3D, et introduisant une nouvelle technique de conditionnement durant l’entraînement. En variant le masque sur lequel le modèle est conditionné, celui-ci est capable de réaliser la prédiction vidéo, l’infrastructure (infilling) et le suréchantillonnage. Grâce à notre schéma de conditionnement simple, nous pouvons utiliser la même architecture que celle employée pour l’entraînement non conditionnel, ce qui permet d’entraîner le modèle de manière conditionnelle et non conditionnelle simultanément. Nous évaluons RaMViD sur deux jeux de données standard pour la prédiction vidéo, où nous obtenons des résultats de pointe, ainsi que sur un jeu de données pour la génération vidéo. Des vidéos en haute résolution sont disponibles à l’adresse suivante : https://sites.google.com/view/video-diffusion-prediction.

Modèles de diffusion pour la prédiction vidéo et le remplissage de données | Articles de recherche récents | HyperAI