日付

8ヶ月前

サイズ

3.28 GB

タグ

ComfyUI

動画生成

GitHub

Tencent-Hunyuan/HunyuanCustom

論文URL

2505.04512

1. チュートリアルの概要

このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用し、ビデオ生成には約10分かかります。より良い生成品質を得るには、80GBのメモリを搭載したGPUの使用を推奨します。

テンセントのHunyuanチームが2025年5月9日にリリースしたHunyuanCustomは、マルチモーダルなカスタマイズ動画生成フレームワークです。Hunyuan Video生成フレームワークを基盤とし、トピックの一貫性を重視したマルチモーダルかつ条件付き制御可能な生成モデルです。テキスト、画像、音声、動画を入力として、トピックの一貫性のある動画を生成できます。HunyuanCustomのマルチモーダル機能を活用することで、様々な下流タスクを実現できます。例えば、複数の画像を入力として取得することで、HunyuanCustomはバーチャルヒューマンによる広告やバーチャルメイクアップの試着を容易にします。関連研究論文も公開されています。 HunyuanCustom: カスタマイズされたビデオ生成のためのマルチモーダル駆動型アーキテクチャ。

このワークフローチュートリアルでは、合計で次のモデルファイルを使用します。

hunyuan_video_custom_720p_fp8_scaled.safetensors
llava_llama3_fp16.セーフテンソル
hunyuan_video_vae_bf16.safetensors
clip_l.safetensors

2. プロジェクト例

マルチモーダルビデオのカスタマイズ

さまざまなアプリケーション

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 機能デモンストレーション

利用手順

最初のクローンでは、ロード用のワークフローファイルを手動でインポートする必要があります。

画像生成ビデオ

画像を選択

入力プロンプト

結果出力

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{hu2025hunyuancustom,
      title={HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation}, 
      author={Teng Hu and Zhentao Yu and Zhengguang Zhou and Sen Liang and Yuan Zhou and Qin Lin and Qinglin Lu},
      year={2025},
      eprint={2505.04512},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.04512}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

8ヶ月前

サイズ

3.28 GB

タグ

ComfyUI

動画生成

GitHub

Tencent-Hunyuan/HunyuanCustom

論文URL

2505.04512

1. チュートリアルの概要

このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用し、ビデオ生成には約10分かかります。より良い生成品質を得るには、80GBのメモリを搭載したGPUの使用を推奨します。

このワークフローチュートリアルでは、合計で次のモデルファイルを使用します。

hunyuan_video_custom_720p_fp8_scaled.safetensors
llava_llama3_fp16.セーフテンソル
hunyuan_video_vae_bf16.safetensors
clip_l.safetensors

2. プロジェクト例

マルチモーダルビデオのカスタマイズ

さまざまなアプリケーション

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 機能デモンストレーション

利用手順

最初のクローンでは、ロード用のワークフローファイルを手動でインポートする必要があります。

画像生成ビデオ

画像を選択

入力プロンプト

結果出力

4. 議論

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{hu2025hunyuancustom,
      title={HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation}, 
      author={Teng Hu and Zhentao Yu and Zhengguang Zhou and Sen Liang and Yuan Zhou and Qin Lin and Qinglin Lu},
      year={2025},
      eprint={2505.04512},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.04512}, 
}

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

SAM3: 視覚セグメンテーションモデル

2ヶ月前

テンセント・フンユアンビデオ・フォーリー

1ヶ月前

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

3ヶ月前

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

3ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

2ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ComfyUI Hunyuanカスタムビデオ生成ワークフローチュートリアル

1. チュートリアルの概要

2. プロジェクト例

マルチモーダルビデオのカスタマイズ

さまざまなアプリケーション

3. 操作手順

4. 議論

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

ComfyUI Hunyuanカスタムビデオ生成ワークフローチュートリアル

1. チュートリアルの概要

2. プロジェクト例

マルチモーダルビデオのカスタマイズ

さまざまなアプリケーション

3. 操作手順

4. 議論

引用情報

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

テンセント・フンユアンビデオ・フォーリー

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Supertonic: ONNXに基づく高速TTS音声合成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

ComfyUI Hunyuanカスタムビデオ生成ワークフローチュートリアル

1. チュートリアルの概要

2. プロジェクト例

マルチモーダルビデオのカスタマイズ

さまざまなアプリケーション

3. 操作手順

4. 議論

引用情報

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

テンセント・フンユアンビデオ・フォーリー

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Supertonic: ONNXに基づく高速TTS音声合成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

テンセント・フンユアンビデオ・フォーリー

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Supertonic: ONNXに基づく高速TTS音声合成モデル

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

テンセント・フンユアンビデオ・フォーリー

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Supertonic: ONNXに基づく高速TTS音声合成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック