Command Palette
Search for a command to run...
Tencent HunyuanVideo-Foley
Date
Taille
956.9 MB
Balises
URL du document
1. Introduction au tutoriel

HunyuanVideo-Foley est un modèle de génération audio-vidéo de bout en bout, officiellement publié et mis à disposition en open source par Tencent Hunyuan en août 2025. Il vise à générer automatiquement des effets sonores cinématographiques synchronisés et de haute qualité, incluant des sons d'ambiance, des bruitages et une musique de fond, à partir de séquences vidéo et de descriptions textuelles. Ce modèle surmonte la limitation des vidéos générées par IA traditionnelles, souvent muettes, en possédant des capacités de compréhension multimodale et en analysant simultanément le contenu visuel et les instructions sémantiques pour obtenir une immersion sonore totale : il « comprend les images, lit le texte et enregistre l'audio ». L'article de recherche associé s'intitule « … »HunyuanVideo-Foley : Diffusion multimodale avec alignement de représentation pour la génération audio Foley haute fidélité".
Ce tutoriel utilise une seule carte graphique RTX 4090 pour la puissance de calcul. Actuellement, seule la langue anglaise est prise en charge.
2. Exemples de projets

3. Étapes de l'opération
1. Démarrez le conteneur

2. Après avoir accédé à la page Web, vous pouvez utiliser le modèle
Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter 2 à 3 minutes et actualiser la page. Il est recommandé de charger une vidéo encodée en H.264 pour faciliter la prévisualisation et la lecture des résultats générés sur la page web.

4. Discussion
🖌️ Si vous voyez un projet de qualité, n'hésitez pas à laisser un message pour le recommander ! Nous avons également créé un groupe d'échange de tutoriels. N'hésitez pas à scanner le code QR et à commenter [Tutoriel SD] pour rejoindre le groupe et discuter de divers problèmes techniques et partager les effets de l'application.↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation},
author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
year={2025},
eprint={2508.16930},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2508.16930},
}Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.