Command Palette
Search for a command to run...
Pyramid Flow Génère Une Démo Vidéo Ultra Haute Définition En Une Minute
Date
Size
2.3 GB
GitHub
Paper URL
⚡️Flux pyramidal⚡️ : Modèle de génération vidéo autorégressif efficace en formation basé sur la correspondance de flux

1. Introduction au tutoriel
Pyramid Flow est un modèle de génération vidéo ultra haute définition open source, lancé en 2024 par une équipe de recherche issue d'une collaboration entre Kuaishou, l'Université de Pékin et l'Université des postes et télécommunications de Pékin. Parmi les articles de recherche associés, on peut citer… Correspondance de flux pyramidal pour une modélisation générative vidéo efficace Ce modèle peut générer des vidéos de haute qualité d'une durée maximale de 10 secondes, avec une résolution allant jusqu'à 1280 × 768 et une fréquence d'images de 24 images par seconde, à partir de descriptions textuelles. La technologie au cœur de Pyramid Flow est l'algorithme de correspondance de flux pyramidaux, qui décompose le processus de génération vidéo en plusieurs étapes de résolutions différentes, améliorant ainsi l'efficacité et la qualité de la génération.
Ce tutoriel présente une méthode de génération vidéo autorégressive efficace en termes de formation, basée sur la correspondance de flux. En s'entraînant uniquement sur des ensembles de données open source, il peut générer des vidéos de 10 secondes de haute qualité à une résolution de 768p et 24 FPS, et prend naturellement en charge la génération d'images en vidéo. Ce tutoriel prend en charge les modèles et fonctions suivants :
Deux points de contrôle du modèle :
- 768p : prend en charge jusqu'à 10 secondes de vidéo à 24 FPS
- 384p : prend en charge la génération de vidéos de 5 secondes à 24 FPS
Deux fonctions :
- Vidéo de Vincent (texte en vidéo)
- Génération d'image en vidéo (image_to_video)
2. Étapes de l'opération
Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

1. Texte en vidéo (text_to_video)
choisir Texte en vidéo Fonction, entrez les mots d'invite et les paramètres associés comme requis ci-dessous.
- invite : une invite de texte utilisée comme guide pour la génération de vidéos. Notez qu'il ne peut pas dépasser 128 caractères.
- Durée : La durée de la vidéo générée, Durée = 16 : 5 s, temp = 31 : 10 s.
- guidance_scale : contrôle la qualité visuelle. Nous proposons d'utiliser les conseils de [7, 9] pour le point de contrôle 768p et de 7 pour le point de contrôle 384p lors de la génération de texte en vidéo.
- video_guidance_scale : contrôle le mouvement. Des valeurs plus élevées augmentent la quantité de dynamique et atténuent la dégradation de la génération autorégressive, tandis que des valeurs plus petites stabilisent la vidéo. Pour la génération de vidéos de 10 secondes, nous vous recommandons d'utiliser une échelle de guidage à 7 niveaux et une échelle de guidage vidéo à 5 niveaux. Après les tests, il faut environ 4 minutes pour générer une vidéo de 5 s en utilisant un point de contrôle 768p (modèle plus grand) et environ 2 minutes pour générer une vidéo de 5 s en utilisant un modèle 384p (modèle plus petit).


2. Génération d'image en vidéo (image_to_video)
choisir Image_en_Vidéo Fonction, entrez les mots d'invite et les paramètres associés comme requis ci-dessous.
- input_image : télécharger l'image originale
- invite : une invite de texte utilisée comme guide pour la génération de vidéos. Notez qu'il ne peut pas dépasser 128 caractères.
- Durée : La durée de la vidéo générée, Durée = 16 : 5 s, temp = 31 : 10 s.
- video_guidance_scale : contrôle le mouvement. Des valeurs plus élevées augmentent la quantité de dynamique et atténuent la dégradation de la génération autorégressive, tandis que des valeurs plus petites stabilisent la vidéo. Pour la génération de vidéos de 10 secondes, nous vous recommandons d'utiliser une échelle de guidage à 7 niveaux et une échelle de guidage vidéo à 5 niveaux. Après les tests, il faut environ 3 minutes pour générer une vidéo de 5 s en utilisant un point de contrôle 768p (modèle plus grand) et environ 2 minutes pour générer une vidéo de 5 s en utilisant un modèle 384p (modèle plus petit).


Échange et discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.