La Première Vidéo Open Source Vincent De Latte World DiT
Papier | Page du projet
Présentation du projet
Avec la sortie réussie de Sora, le modèle vidéo DiT a reçu beaucoup d'attention et de discussions. La conception de réseaux neuronaux stables à très grande échelle a toujours été un axe de recherche dans le domaine de la génération visuelle. Le succès de DiT a permis d’augmenter la génération d’images. Latte (Latent Diffusion Transformer for Video Generation) est un modèle innovant de génération vidéo qui a été open source en novembre 2023. En tant que premier DiT vidéo Vincent open source au monde, Latte a obtenu des résultats prometteurs.
Ce tutoriel démontre la mise en œuvre des effets du projet Latte.
Affichage des effets

Tutoriel
Génération de texte en vidéo personnalisée à l'aide de Latte
1. Clonez le conteneur et exécutez
2. Ouvrez l'espace de travail et définissez l'invite de texte
Ouvrez le fichier de configuration sur la gauche home/Latte/configs/t2v/t2v_sample.yaml
, double-cliquez pour ouvrir, modifiez le texte sous text_prompt. Cet article a donné des exemples pertinents, comme indiqué ci-dessous. Après modification ctrl+S
sauvegarder.

3. Générer une vidéo
Ouvrez un terminal et tapez :cd Latte/
Changer de répertoire,
Tapez dans le terminal :bash sample/t2v.sh
Générez une vidéo haute définition, attendez que le programme termine son exécution, puis Latte/sample_videos
Les résultats générés se trouvent dans le répertoire, t2v_0000-.mp4 est la vidéo totale du texte de l'invite, et les autres fichiers .mp4 sont les vidéos générées par une seule invite.
Remarque : la vidéo générée ne peut pas être visualisée directement dans le conteneur. Vous devez cliquer avec le bouton droit sur le fichier pour télécharger la vidéo sur votre ordinateur local afin de la visionner.
Autres informations sur le code
Code d'inférence Latte
Latte peut obtenir quatre modèles en s'entraînant sur quatre ensembles de données de génération vidéo standard (FaceForensics, SkyTimelapse, UCF101 et Taichi-HD). Chaque modèle générera une vidéo de la scène correspondante. Voici une explication du fonctionnement : Entrez d'abord dans le projet, ouvrez le terminal et entrez :cd Latte/
1. FaceForensics : détection de visages à partir d'images de synthèse
Tapez dans le terminal :bash sample/ffs.sh
Pour générer un visage, une fois le programme terminé, Latte/test_ffs
Vérifiez les résultats générés dans le répertoire.
Remarque : chaque résultat généré écrasera le résultat précédent.
2. SkyTimelapse : Images photographiques du ciel
Tapez dans le terminal :bash sample/sky.sh
Pour générer le ciel, une fois le programme terminé, utilisez le bouton gauche Latte/test_sky
Générez des résultats dans le répertoire et téléchargez-les sur votre ordinateur local pour les visualiser.
3. UCF101 : Reconnaissance d'actions dans des vidéos d'action réalistes
Tapez dans le terminal :bash sample/ucf101.sh
Pour générer une action réelle, une fois le programme terminé, Latte/test_UCF101
Générez des résultats dans le répertoire et téléchargez-les sur votre ordinateur local pour les visualiser.
4. Taichi-HD; Génération de vidéos haute définition
Tapez dans le terminal :bash sample/taichi.sh
Pour générer une vidéo haute définition, une fois le programme terminé, Latte/test_Taichi
Générez des résultats dans le répertoire et téléchargez-les sur votre ordinateur local pour les visualiser.