HyperAIHyperAI

Command Palette

Search for a command to run...

Tencent HunyuanVideo-Foley

Date

il y a un mois

Taille

956.9 MB

URL du document

arxiv.org

1. Introduction au tutoriel

Construire
Badge statique

HunyuanVideo-Foley est un modèle de génération audio-vidéo de bout en bout, officiellement publié et mis à disposition en open source par Tencent Hunyuan en août 2025. Il vise à générer automatiquement des effets sonores cinématographiques synchronisés et de haute qualité, incluant des sons d'ambiance, des bruitages et une musique de fond, à partir de séquences vidéo et de descriptions textuelles. Ce modèle surmonte la limitation des vidéos générées par IA traditionnelles, souvent muettes, en possédant des capacités de compréhension multimodale et en analysant simultanément le contenu visuel et les instructions sémantiques pour obtenir une immersion sonore totale : il « comprend les images, lit le texte et enregistre l'audio ». L'article de recherche associé s'intitule « … »HunyuanVideo-Foley : Diffusion multimodale avec alignement de représentation pour la génération audio Foley haute fidélité".

Ce tutoriel utilise une seule carte graphique RTX 4090 pour la puissance de calcul. Actuellement, seule la langue anglaise est prise en charge.

2. Exemples de projets

3. Étapes de l'opération

1. Démarrez le conteneur

2. Après avoir accédé à la page Web, vous pouvez utiliser le modèle

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter 2 à 3 minutes et actualiser la page. Il est recommandé de charger une vidéo encodée en H.264 pour faciliter la prévisualisation et la lecture des résultats générés sur la page web.

4. Discussion

🖌️ Si vous voyez un projet de qualité, n'hésitez pas à laisser un message pour le recommander ! Nous avons également créé un groupe d'échange de tutoriels. N'hésitez pas à scanner le code QR et à commenter [Tutoriel SD] pour rejoindre le groupe et discuter de divers problèmes techniques et partager les effets de l'application.↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp