Date

il y a 4 mois

Taille

538.54 MB

Balises

Multimodal

Licence

Apache 2.0

GitHub

Phantom-video/HuMo

URL du document

2509.08519

1. Introduction au tutoriel

HuMo est un framework de génération vidéo multimodal, développé par l'Université Tsinghua et le laboratoire de création intelligente de ByteDance, et lancé en septembre 2025. Axé sur la génération vidéo centrée sur l'humain, il permet de créer des vidéos de haute qualité, détaillées et contrôlables, à partir de multiples entrées modales telles que du texte, des images et de l'audio. HuMo offre des fonctionnalités avancées de suivi des indices textuels, une préservation cohérente du sujet et une synchronisation des mouvements pilotée par l'audio. Il prend en charge la génération vidéo à partir de texte et d'image (VideoGen à partir de texte et d'image), de texte et d'audio (VideoGen à partir de texte et d'audio) et de texte, d'image et d'audio (VideoGen à partir de texte, d'image et d'audio). Des articles de recherche associés sont disponibles. HuMo : Génération vidéo centrée sur l'humain via un conditionnement multimodal collaboratif .

Le projet HuMo propose le déploiement de modèles selon deux spécifications : 1.7B et 17B. Ce tutoriel utilise un modèle 17B et une seule carte RTX Pro 6000 comme ressource.

→ Cliquez pour accéder à l'expérienceHuMo 1.7B : un cadre pour la génération de vidéos multimodales".

2. Exemples de projets

VideoGen à partir de Texte-Image-Audio, TIA

VideoGen de Text-Audio,TA

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page. Remarque : lorsque les étapes d’échantillonnage sont définies sur 10, la génération des résultats prend environ 3 à 5 minutes.

AIT

TA

Description des paramètres

Hauteur : définissez la hauteur de la vidéo.
Largeur : définissez la largeur de la vidéo.
Images : définissez le nombre d’images vidéo.
Échelle de guidage du texte : mise à l'échelle du guidage du texte, utilisée pour contrôler l'impact des invites de texte sur la génération de vidéo.
Échelle de guidage d'image : mise à l'échelle du guidage d'image, utilisée pour contrôler l'influence des repères d'image sur la génération vidéo.
Échelle de guidage audio : mise à l'échelle du guidage audio, utilisée pour contrôler l'influence des signaux audio sur la génération vidéo.
Étapes d'échantillonnage : le nombre d'étapes d'échantillonnage utilisées pour contrôler la qualité et les détails de la vidéo générée.
Graine aléatoire : graine aléatoire, utilisée pour contrôler le caractère aléatoire de la génération vidéo.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{chen2025humo,
      title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, 
      author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
      year={2025},
      eprint={2509.08519},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.08519}, 
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

DiffVox : Modèle De Différenciation Sonore

il y a 3 mois

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

il y a un mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook

Date

il y a 4 mois

Taille

538.54 MB

Balises

Multimodal

Licence

Apache 2.0

GitHub

Phantom-video/HuMo

URL du document

2509.08519

1. Introduction au tutoriel

Le projet HuMo propose le déploiement de modèles selon deux spécifications : 1.7B et 17B. Ce tutoriel utilise un modèle 17B et une seule carte RTX Pro 6000 comme ressource.

→ Cliquez pour accéder à l'expérienceHuMo 1.7B : un cadre pour la génération de vidéos multimodales".

2. Exemples de projets

VideoGen à partir de Texte-Image-Audio, TIA

VideoGen de Text-Audio,TA

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page. Remarque : lorsque les étapes d’échantillonnage sont définies sur 10, la génération des résultats prend environ 3 à 5 minutes.

AIT

TA

Description des paramètres

Hauteur : définissez la hauteur de la vidéo.
Largeur : définissez la largeur de la vidéo.
Images : définissez le nombre d’images vidéo.
Échelle de guidage du texte : mise à l'échelle du guidage du texte, utilisée pour contrôler l'impact des invites de texte sur la génération de vidéo.
Échelle de guidage d'image : mise à l'échelle du guidage d'image, utilisée pour contrôler l'influence des repères d'image sur la génération vidéo.
Échelle de guidage audio : mise à l'échelle du guidage audio, utilisée pour contrôler l'influence des signaux audio sur la génération vidéo.
Étapes d'échantillonnage : le nombre d'étapes d'échantillonnage utilisées pour contrôler la qualité et les détails de la vidéo générée.
Graine aléatoire : graine aléatoire, utilisée pour contrôler le caractère aléatoire de la génération vidéo.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{chen2025humo,
      title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, 
      author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
      year={2025},
      eprint={2509.08519},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.08519}, 
}

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

Ovis-Image : Modèle De Génération d'images De Haute Qualité

il y a 2 mois

FLUX.2-dev : Modèle De Génération Et D’édition D’images

il y a 2 mois

SAM3 : Modèle De Segmentation Visuelle

il y a 2 mois

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

il y a 2 mois

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

DiffVox : Modèle De Différenciation Sonore

il y a 3 mois

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

il y a un mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HuMo-17B : Création Collaborative Trimodale

1. Introduction au tutoriel

2. Exemples de projets

VideoGen à partir de Texte-Image-Audio, TIA

VideoGen de Text-Audio,TA

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

AIT

TA

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HuMo-17B : Création Collaborative Trimodale

1. Introduction au tutoriel

2. Exemples de projets

VideoGen à partir de Texte-Image-Audio, TIA

VideoGen de Text-Audio,TA

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

AIT

TA

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Ovis-Image : Modèle De Génération d'images De Haute Qualité

FLUX.2-dev : Modèle De Génération Et D’édition D’images

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

DiffVox : Modèle De Différenciation Sonore

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HuMo-17B : Création Collaborative Trimodale

1. Introduction au tutoriel

2. Exemples de projets

VideoGen à partir de Texte-Image-Audio, TIA

VideoGen de Text-Audio,TA

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

AIT

TA

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Ovis-Image : Modèle De Génération d'images De Haute Qualité

FLUX.2-dev : Modèle De Génération Et D’édition D’images

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

DiffVox : Modèle De Différenciation Sonore

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Ovis-Image : Modèle De Génération d'images De Haute Qualité

FLUX.2-dev : Modèle De Génération Et D’édition D’images

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

DiffVox : Modèle De Différenciation Sonore

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Ovis-Image : Modèle De Génération d'images De Haute Qualité

FLUX.2-dev : Modèle De Génération Et D’édition D’images

SAM3 : Modèle De Segmentation Visuelle

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel