Tutoriel ComfyUI HunyuanCustom Sur Le Flux De Travail De Génération De Vidéos
1. Introduction au tutoriel

Ce tutoriel utilise une seule carte RTX 4090 comme ressource, et la génération vidéo prend environ 10 minutes. Il est recommandé d'utiliser un GPU avec 80 Go de mémoire pour une meilleure qualité de génération.
HunyuanCustom est un framework de génération vidéo multimodale personnalisé, lancé par l'équipe Tencent Hunyuan le 9 mai 2025. Il s'agit d'un modèle de génération multimodal, conditionnellement contrôlable, centré sur la cohérence des sujets, basé sur le framework de génération vidéo Hunyuan. Il prend en charge la génération de vidéos cohérentes avec les sujets, conditionnées par des entrées texte, image, audio et vidéo. Grâce aux capacités multimodales de HunyuanCustom, de nombreuses tâches en aval peuvent être réalisées. Par exemple, en prenant plusieurs photos en entrée, HunyuanCustom peut faciliter la publicité virtuelle et les essais de maquillage virtuels. Les résultats de l'étude sont les suivants :HunyuanCustom : une architecture multimodale pour la génération de vidéos personnalisées".
Ce didacticiel de flux de travail utilise au total les fichiers modèles suivants :
- hunyuan_video_custom_720p_fp8_scaled.safetensors
- llava_llama3_fp16.safetensors
- hunyuan_video_vae_bf16.safetensors
- clip_l.safetensors
2. Exemples de projets
Personnalisation vidéo multimodale

Diverses applications

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2. Démonstration fonctionnelle
Comment utiliser
- Le premier clone nécessite l'importation manuelle du fichier de workflow pour le chargement

- Vidéo de génération d'images
Sélectionnez une image

Invite de saisie

Résultat de sortie
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@misc{hu2025hunyuancustom,
title={HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation},
author={Teng Hu and Zhentao Yu and Zhengguang Zhou and Sen Liang and Yuan Zhou and Qin Lin and Qinglin Lu},
year={2025},
eprint={2505.04512},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2505.04512},
}