HyperAIHyperAI

Command Palette

Search for a command to run...

テンセント・フンユアンビデオ・フォーリー

日付

1ヶ月前

サイズ

956.9 MB

論文URL

arxiv.org

1. チュートリアルの概要

建てる
静的バッジ

HunyuanVideo-Foleyは、テンセント・ハンユアンが2025年8月に公式リリースし、オープンソース化したエンドツーエンドの動画音声生成モデルです。動画映像とテキスト記述を入力として、環境音、フォーリー効果音、BGMなど、高品質で同期した映画のような効果音を自動生成することを目的としています。このモデルは、従来のAI生成動画が「無音」であるという制約を克服し、マルチモーダル理解機能を備え、映像コンテンツと意味的指示を同時に解析することで、「映像を理解し、テキストを読み取り、音声を登録する」没入型の音響効果生成を実現します。関連研究論文のタイトルは「…」です。HunyuanVideo-Foley: 表現の整合によるマルチモーダル拡散と高忠実度フォーリーオーディオ生成”。

このチュートリアルでは、コンピューティングパワーとして単一のRTX 4090 GPUを使用します。現在、英語のみサポートされています。

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。2~3分待ってからページを更新してください。生成された結果をウェブページで簡単にプレビューおよび再生できるように、H.264でエンコードされた動画をアップロードすることをお勧めします。

4. 議論

🖌️ 高品質なプロジェクトを見かけたら、ぜひバックグラウンドでメッセージを残して推薦してください! また、チュートリアル交流グループも開設しました。QRコードをスキャンして[SD Tutorial]とコメントするだけで、グループに参加して様々な技術的な問題について議論したり、応用効果を共有したりすることができます。↓

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています