日付

6ヶ月前

組織

タグ

動画生成

RTX 5090

論文URL

2508.16930

GitHub

Tencent-Hunyuan/HunyuanVideo-Foley1.0k

1. チュートリアルの概要

HunyuanVideo-Foleyは、テンセント・ハンユアンが2025年8月に公式リリースし、オープンソース化したエンドツーエンドの動画音声生成モデルです。動画映像とテキスト記述を入力として、環境音、フォーリー効果音、BGMなど、高品質で同期した映画のような効果音を自動生成することを目的としています。このモデルは、従来のAI生成動画が「無音」であるという制約を克服し、マルチモーダル理解機能を備え、映像コンテンツと意味的指示を同時に解析することで、「映像を理解し、テキストを読み取り、音声を登録する」没入型の音響効果生成を実現します。関連研究論文のタイトルは「…」です。HunyuanVideo-Foley: 表現の整合によるマルチモーダル拡散と高忠実度フォーリーオーディオ生成”。

このチュートリアルでは、コンピューティングパワーとして単一のRTX 4090 GPUを使用します。現在、英語のみサポートされています。

2. プロジェクト例

3. 操作手順

1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。2～3分待ってからページを更新してください。生成された結果をウェブページで簡単にプレビューおよび再生できるように、H.264でエンコードされた動画をアップロードすることをお勧めします。

4. 議論

🖌️ 高品質なプロジェクトを見かけたら、ぜひバックグラウンドでメッセージを残して推薦してください！また、チュートリアル交流グループも開設しました。QRコードをスキャンして[SD Tutorial]とコメントするだけで、グループに参加して様々な技術的な問題について議論したり、応用効果を共有したりすることができます。↓

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

生成AI コンピュータビジョン音声

HunyuanVideo-1.5 ビデオ生成モデル

4ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このノートブックを実行 Discordで議論

日付