HyperAI

La Première Vidéo Open Source Vincent De Latte World DiT

Papier | Page du projet

Présentation du projet

Avec la sortie réussie de Sora, le modèle vidéo DiT a reçu beaucoup d'attention et de discussions. La conception de réseaux neuronaux stables à très grande échelle a toujours été un axe de recherche dans le domaine de la génération visuelle. Le succès de DiT a permis d’augmenter la génération d’images. Latte (Latent Diffusion Transformer for Video Generation) est un modèle innovant de génération vidéo qui a été open source en novembre 2023. En tant que premier DiT vidéo Vincent open source au monde, Latte a obtenu des résultats prometteurs.

Ce tutoriel démontre la mise en œuvre des effets du projet Latte.

Affichage des effets

1

Tutoriel

Génération de texte en vidéo personnalisée à l'aide de Latte

1. Clonez le conteneur et exécutez

2. Ouvrez l'espace de travail et définissez l'invite de texte

Ouvrez le fichier de configuration sur la gauche home/Latte/configs/t2v/t2v_sample.yaml, double-cliquez pour ouvrir, modifiez le texte sous text_prompt. Cet article a donné des exemples pertinents, comme indiqué ci-dessous. Après modification ctrl+S  sauvegarder.

2

3. Générer une vidéo

Ouvrez un terminal et tapez :cd Latte/  Changer de répertoire,

Tapez dans le terminal :bash sample/t2v.sh  Générez une vidéo haute définition, attendez que le programme termine son exécution, puis Latte/sample_videos  Les résultats générés se trouvent dans le répertoire, t2v_0000-.mp4 est la vidéo totale du texte de l'invite, et les autres fichiers .mp4 sont les vidéos générées par une seule invite.

Remarque : la vidéo générée ne peut pas être visualisée directement dans le conteneur. Vous devez cliquer avec le bouton droit sur le fichier pour télécharger la vidéo sur votre ordinateur local afin de la visionner.

Autres informations sur le code

Code d'inférence Latte

Latte peut obtenir quatre modèles en s'entraînant sur quatre ensembles de données de génération vidéo standard (FaceForensics, SkyTimelapse, UCF101 et Taichi-HD). Chaque modèle générera une vidéo de la scène correspondante. Voici une explication du fonctionnement : Entrez d'abord dans le projet, ouvrez le terminal et entrez :cd Latte/

1. FaceForensics : détection de visages à partir d'images de synthèse

Tapez dans le terminal :bash sample/ffs.sh

Pour générer un visage, une fois le programme terminé, Latte/test_ffs Vérifiez les résultats générés dans le répertoire.

Remarque : chaque résultat généré écrasera le résultat précédent.

2. SkyTimelapse : Images photographiques du ciel

Tapez dans le terminal :bash sample/sky.sh

Pour générer le ciel, une fois le programme terminé, utilisez le bouton gauche Latte/test_sky Générez des résultats dans le répertoire et téléchargez-les sur votre ordinateur local pour les visualiser.

3. UCF101 : Reconnaissance d'actions dans des vidéos d'action réalistes

Tapez dans le terminal :bash sample/ucf101.sh

Pour générer une action réelle, une fois le programme terminé, Latte/test_UCF101  Générez des résultats dans le répertoire et téléchargez-les sur votre ordinateur local pour les visualiser.

4. Taichi-HD; Génération de vidéos haute définition

Tapez dans le terminal :bash sample/taichi.sh

Pour générer une vidéo haute définition, une fois le programme terminé, Latte/test_Taichi  Générez des résultats dans le répertoire et téléchargez-les sur votre ordinateur local pour les visualiser.