MagicVideo : Génération vidéo efficace à l’aide de modèles de diffusion latente

Nous présentons un cadre efficace de génération vidéo à partir de texte basé sur des modèles de diffusion latente, dénommé MagicVideo. MagicVideo est capable de produire des extraits vidéo fluides conformes aux descriptions textuelles fournies. Grâce à une nouvelle architecture U-Net 3D efficace et à une modélisation des distributions vidéo dans un espace de faible dimension, MagicVideo peut synthétiser des extraits vidéo à une résolution spatiale de 256×256 sur une seule carte GPU, avec un coût computationnel environ 64 fois inférieur à celui des modèles de diffusion vidéo (VDM) en termes de FLOPs. Plus précisément, contrairement aux travaux existants qui entraînent directement des modèles vidéo dans l’espace RGB, nous utilisons un VAE pré-entraîné pour projeter les extraits vidéo dans un espace latente de faible dimension, puis apprenons la distribution des codes latents vidéo via un modèle de diffusion. En outre, nous introduisons deux nouvelles architectures pour adapter le dénoiseur U-Net entraîné sur des tâches d’image à des données vidéo : un adaptateur léger par trame pour ajuster la distribution image-versus-vidéo, et un module d’attention temporelle dirigée afin de capturer les dépendances temporelles entre les trames. Ainsi, nous pouvons exploiter les poids informatifs des opérateurs de convolution issus d’un modèle texte-image pour accélérer l’entraînement vidéo. Pour atténuer le flou ou le « dithering » aux pixels dans les vidéos générées, nous proposons également un nouveau décodeur auto-encodeur VideoVAE offrant une reconstruction RGB améliorée. Nous menons des expériences approfondies et démontrons que MagicVideo peut générer des extraits vidéo de haute qualité, qu’ils soient réalistes ou imaginaires. Pour plus d’exemples, veuillez consulter \url{https://magicvideo.github.io/#}.