Command Palette
Search for a command to run...
HuMo-1.7B : Un Cadre Pour La Génération De Vidéos Multimodales
1. Introduction au tutoriel

HuMo est un framework de génération vidéo multimodale, lancé par l'Université Tsinghua et le ByteDance Intelligent Creation Lab en septembre 2025, axé sur la génération vidéo centrée sur l'utilisateur. Il permet de générer des vidéos de haute qualité, détaillées et contrôlables à partir de plusieurs entrées modales telles que le texte, l'image et l'audio. HuMo offre de puissantes fonctionnalités de suivi d'invite textuelle, une rétention cohérente du sujet et une synchronisation des mouvements pilotée par l'audio. Il prend en charge la génération vidéo à partir de formats texte-image (VideoGen à partir de Texte-Image), texte-audio (VideoGen à partir de Texte-Audio) et texte-image-audio (VideoGen à partir de Texte-Image-Audio), offrant ainsi aux utilisateurs des possibilités de personnalisation et de contrôle accrues. Les résultats de l'étude sont :HuMo : Génération vidéo centrée sur l'humain via un conditionnement multimodal collaboratif".
Le projet HuMo propose le déploiement de modèles selon deux spécifications : 1.7B et 17B. Ce tutoriel utilise le modèle 1.7B et une seule carte RTX 5090 comme ressource.
→ Cliquez pour accéder à l'expérienceHuMo 17B : Un cadre pour la génération de vidéos multimodales".
2. Exemples de projets
VideoGen à partir de Texte-Image-Audio, TIA

VideoGen de Text-Audio,TA

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page. Remarque : lorsque les étapes d’échantillonnage sont définies sur 10, la génération des résultats prend environ 3 à 5 minutes.
VideoGen à partir de Texte-Image-Audio (TIA)

VideoGen à partir de texte-audio (TA)

Description des paramètres
- Hauteur : définissez la hauteur de la vidéo.
- Largeur : définissez la largeur de la vidéo.
- Images : définissez le nombre d’images vidéo.
- Échelle de guidage du texte : mise à l'échelle du guidage du texte, utilisée pour contrôler l'impact des invites de texte sur la génération de vidéo.
- Échelle de guidage d'image : mise à l'échelle du guidage d'image, utilisée pour contrôler l'influence des repères d'image sur la génération vidéo.
- Échelle de guidage audio : mise à l'échelle du guidage audio, utilisée pour contrôler l'influence des signaux audio sur la génération vidéo.
- Étapes d'échantillonnage : le nombre d'étapes d'échantillonnage utilisées pour contrôler la qualité et les détails de la vidéo générée.
4. Discussion
Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@misc{chen2025humo,
title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning},
author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
year={2025},
eprint={2509.08519},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2509.08519},
}Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.