HyperAIHyperAI

Command Palette

Search for a command to run...

Modèles de diffusion pour la prédiction vidéo et le remplissage de données

Tobias Höppe Arash Mehrjou Stefan Bauer Didrik Nielsen Andrea Dittadi

Résumé

Prédire et anticiper des résultats futurs ou raisonner sur des informations manquantes dans une séquence constituent des compétences essentielles pour permettre aux agents de prendre des décisions intelligentes. Cela exige des capacités génératives puissantes et cohérentes dans le temps. Les modèles de diffusion ont démontré un succès remarquable dans diverses tâches génératives, mais leur exploration dans le domaine vidéo reste limitée. Nous présentons Random-Mask Video Diffusion (RaMViD), une extension des modèles de diffusion d’images aux vidéos, basée sur des convolutions 3D, et introduisant une nouvelle technique de conditionnement durant l’entraînement. En variant le masque sur lequel le modèle est conditionné, celui-ci est capable de réaliser la prédiction vidéo, l’infrastructure (infilling) et le suréchantillonnage. Grâce à notre schéma de conditionnement simple, nous pouvons utiliser la même architecture que celle employée pour l’entraînement non conditionnel, ce qui permet d’entraîner le modèle de manière conditionnelle et non conditionnelle simultanément. Nous évaluons RaMViD sur deux jeux de données standard pour la prédiction vidéo, où nous obtenons des résultats de pointe, ainsi que sur un jeu de données pour la génération vidéo. Des vidéos en haute résolution sont disponibles à l’adresse suivante : https://sites.google.com/view/video-diffusion-prediction.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèles de diffusion pour la prédiction vidéo et le remplissage de données | Articles | HyperAI