Command Palette
Search for a command to run...
テンセント・フンユアンビデオ・フォーリー
1. チュートリアルの概要

HunyuanVideo-Foleyは、テンセント・ハンユアンが2025年8月に公式リリースし、オープンソース化したエンドツーエンドの動画音声生成モデルです。動画映像とテキスト記述を入力として、環境音、フォーリー効果音、BGMなど、高品質で同期した映画のような効果音を自動生成することを目的としています。このモデルは、従来のAI生成動画が「無音」であるという制約を克服し、マルチモーダル理解機能を備え、映像コンテンツと意味的指示を同時に解析することで、「映像を理解し、テキストを読み取り、音声を登録する」没入型の音響効果生成を実現します。関連研究論文のタイトルは「…」です。HunyuanVideo-Foley: 表現の整合によるマルチモーダル拡散と高忠実度フォーリーオーディオ生成”。
このチュートリアルでは、コンピューティングパワーとして単一のRTX 4090 GPUを使用します。現在、英語のみサポートされています。
2. プロジェクト例

3. 操作手順
1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます
「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。2~3分待ってからページを更新してください。生成された結果をウェブページで簡単にプレビューおよび再生できるように、H.264でエンコードされた動画をアップロードすることをお勧めします。

4. 議論
🖌️ 高品質なプロジェクトを見かけたら、ぜひバックグラウンドでメッセージを残して推薦してください! また、チュートリアル交流グループも開設しました。QRコードをスキャンして[SD Tutorial]とコメントするだけで、グループに参加して様々な技術的な問題について議論したり、応用効果を共有したりすることができます。↓

引用情報
このプロジェクトの引用情報は次のとおりです。
@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation},
author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
year={2025},
eprint={2508.16930},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2508.16930},
}