HyperAIHyperAI

Démonstration Du Modèle De Génération Vidéo Pusa-VidGen

1. Introduction au tutoriel

Étoiles

Pusa V1 est un modèle de génération vidéo multimodal performant, proposé par l'équipe Yaofang-Liu le 25 juillet 2025. Basé sur l'adaptation au pas de temps vectorisée (VTA), il résout les problèmes fondamentaux des modèles de génération vidéo traditionnels, tels que le coût d'apprentissage élevé, la faible efficacité d'inférence et la faible cohérence temporelle. Contrairement aux méthodes traditionnelles qui nécessitent de grandes quantités de données et une puissance de calcul importante, Pusa V1 réalise des optimisations révolutionnaires basées sur Wan2.1-T2V-14B grâce à une stratégie de réglage fin légère. Son coût d'apprentissage est de seulement 500 $ (1/200e de celui des modèles similaires) et son jeu de données ne nécessite que 4 000 échantillons (1/2 500e de celui des modèles similaires). L'apprentissage peut être réalisé sur huit GPU de 80 Go, ce qui réduit considérablement les barrières d'entrée pour la technologie de génération vidéo. De plus, il offre de puissantes capacités multitâches, prenant en charge non seulement la vidéo textuelle (T2V) et la vidéo image (I2V), mais aussi les tâches à prise de vue zéro telles que la complétion vidéo, la génération de la première et de la dernière image et les transitions inter-scènes, éliminant ainsi le besoin d'entraînement supplémentaire spécifique à chaque scène. Plus important encore, ses performances de génération sont particulièrement remarquables. Il adopte une stratégie de raisonnement en quelques étapes (10 étapes peuvent surpasser le modèle de base), et le score total de VBench-I2V atteint 87,32%, avec d'excellentes performances en restauration dynamique des détails (tels que les mouvements des membres, les changements de lumière et d'ombre) et en cohérence temporelle. De plus, le mécanisme d'adaptation non destructif obtenu par la technologie VTA permet non seulement d'injecter des capacités de dynamique temporelle dans le modèle de base, mais également de conserver la qualité de génération d'image du modèle d'origine, obtenant ainsi l'effet « 1+1>2 ». Au niveau du déploiement, la faible latence d'inférence permet de répondre à des besoins variés, de la prévisualisation rapide à la sortie haute définition, et est adapté à des scénarios tels que la conception créative et la production de courtes vidéos. Les résultats pertinents de l'article sont « PUSA V1.0 : Dépassement de Wan-I2V avec un coût de formation de $500 par adaptation du pas de temps vectorisé ".

Ce tutoriel utilise des ressources RTX A6000 à double carte.

2. Exemples de projets

1. Image en vidéo

2. Multi-images en vidéo

3. Vidéo vers vidéo

4. Texte en vidéo

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2.1 Image vers vidéo

Description des paramètres

  • Paramètres de génération
    • Multiplicateur de bruit : réglable de 0,0 à 1,0, par défaut 0,2 (les valeurs inférieures sont plus fidèles à l'image d'entrée, les valeurs supérieures sont plus créatives).
    • LoRA Alpha : 0,1-5,0 réglable, par défaut 1,4 (contrôle la cohérence du style, trop élevé et il sera rigide, trop bas et il perdra sa cohérence).
    • Étapes d'inférence : réglables de 1 à 50, la valeur par défaut est 10 (plus le nombre d'étapes est élevé, plus les détails sont riches, mais le temps consommé augmente linéairement).

2.2 Multi-images en vidéo

Description des paramètres

  • Paramètres de conditionnement
    • Positions de conditionnement : indices d'image séparés par des virgules (par exemple, « 0,20 » définit les points temporels des images clés dans la vidéo).
    • Multiplicateurs de bruit : valeurs 0,0-1,0 séparées par des virgules (par exemple « 0,2,0,5 », correspondant à la liberté créative de chaque image clé, les valeurs inférieures sont plus fidèles à l'image, les valeurs supérieures sont plus variées).
  • Paramètres de génération
    • LoRA Alpha : 0,1-5,0 réglable, par défaut 1,4 (contrôle la cohérence du style, trop élevé et il sera rigide, trop bas et il perdra sa cohérence).
    • Étapes d'inférence : réglables de 1 à 50, la valeur par défaut est 10 (plus le nombre d'étapes est élevé, plus les détails sont riches, mais le temps consommé augmente linéairement).

2.3 Vidéo vers vidéo

Description des paramètres

  • Paramètres de conditionnement
    • Positions de conditionnement : indices d'image séparés par des virgules (par exemple, « 0,1,2,3 », spécifiant les positions d'image clé dans la vidéo d'origine utilisées pour la génération de contraintes, obligatoire).
    • Multiplicateurs de bruit : valeurs 0,0-1,0 séparées par des virgules (par exemple « 0,0,0,3 », correspondant au degré d'influence de chaque image conditionnelle, les valeurs inférieures sont plus proches de l'image d'origine, les valeurs supérieures sont plus flexibles).
  • Paramètres de génération
    • LoRA Alpha : 0,1-5,0 réglable, par défaut 1,4 (contrôle la cohérence du style, trop élevé et il sera rigide, trop bas et il perdra sa cohérence).
    • Étapes d'inférence : réglables de 1 à 50, la valeur par défaut est 10 (plus le nombre d'étapes est élevé, plus les détails sont riches, mais le temps consommé augmente linéairement).

2.4 Texte en vidéo

Description des paramètres

  • Paramètres de génération
    • LoRA Alpha : 0,1-5,0 réglable, par défaut 1,4 (contrôle la cohérence du style, trop élevé et il sera rigide, trop bas et il perdra sa cohérence).
    • Étapes d'inférence : réglables de 1 à 50, la valeur par défaut est 10 (plus le nombre d'étapes est élevé, plus les détails sont riches, mais le temps consommé augmente linéairement).

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{liu2025pusa,
title={PUSA V1. 0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation},
author={Liu, Yaofang and Ren, Yumeng and Artola, Aitor and Hu, Yuxuan and Cun, Xiaodong and Zhao, Xiaotong and Zhao, Alan and Chan, Raymond H and Zhang, Suiyun and Liu, Rui and others},
journal={arXiv preprint arXiv:2507.16116},
year={2025}
}

@misc{Liu2025pusa,
title={Pusa: Thousands Timesteps Video Diffusion Model},
author={Yaofang Liu and Rui Liu},
year={2025},
url={https://github.com/Yaofang-Liu/Pusa-VidGen},
}
@article{liu2024redefining,
  title={Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach},
  author={Liu, Yaofang and Ren, Yumeng and Cun, Xiaodong and Artola, Aitor and Liu, Yang and Zeng, Tieyong and Chan, Raymond H and Morel, Jean-michel},
  journal={arXiv preprint arXiv:2410.03160},
  year={2024}
}