HyperAIHyperAI

Command Palette

Search for a command to run...

MagicVideo : Génération vidéo efficace à l’aide de modèles de diffusion latente

Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng

Résumé

Nous présentons un cadre efficace de génération vidéo à partir de texte basé sur des modèles de diffusion latente, dénommé MagicVideo. MagicVideo est capable de produire des extraits vidéo fluides conformes aux descriptions textuelles fournies. Grâce à une nouvelle architecture U-Net 3D efficace et à une modélisation des distributions vidéo dans un espace de faible dimension, MagicVideo peut synthétiser des extraits vidéo à une résolution spatiale de 256×256 sur une seule carte GPU, avec un coût computationnel environ 64 fois inférieur à celui des modèles de diffusion vidéo (VDM) en termes de FLOPs. Plus précisément, contrairement aux travaux existants qui entraînent directement des modèles vidéo dans l’espace RGB, nous utilisons un VAE pré-entraîné pour projeter les extraits vidéo dans un espace latente de faible dimension, puis apprenons la distribution des codes latents vidéo via un modèle de diffusion. En outre, nous introduisons deux nouvelles architectures pour adapter le dénoiseur U-Net entraîné sur des tâches d’image à des données vidéo : un adaptateur léger par trame pour ajuster la distribution image-versus-vidéo, et un module d’attention temporelle dirigée afin de capturer les dépendances temporelles entre les trames. Ainsi, nous pouvons exploiter les poids informatifs des opérateurs de convolution issus d’un modèle texte-image pour accélérer l’entraînement vidéo. Pour atténuer le flou ou le « dithering » aux pixels dans les vidéos générées, nous proposons également un nouveau décodeur auto-encodeur VideoVAE offrant une reconstruction RGB améliorée. Nous menons des expériences approfondies et démontrons que MagicVideo peut générer des extraits vidéo de haute qualité, qu’ils soient réalistes ou imaginaires. Pour plus d’exemples, veuillez consulter \url{https://magicvideo.github.io/#}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp