日期

8 个月前

大小

3.28 GB

标签

ComfyUI

视频生成

GitHub

Tencent-Hunyuan/HunyuanCustom

论文 URL

2505.04512

一、教程简介

本教程采用资源为单卡 RTX 4090，视频生成大约需要 10 分钟。建议使用具有 80GB 内存的 GPU，以获得更好的生成质量。

HunyuanCustom 是由腾讯混元团队 2025 年 5 月 9 日发布的一个多模态定制视频生成框架，一种基于 Hunyuan Video 生成框架构建的以主题一致性为中心的多模态、条件可控的生成模型。它支持生成以文本、图像、音频和视频输入为条件的主题一致性视频。借助 HunyuanCustom 的多模式功能，可以完成众多下游任务。例如，通过获取多张图片作为输入，HunyuanCustom 可以促进虚拟人体广告和虚拟试妆。相关论文成果为 HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation 。

该工作流教程总共使用了下列模型文件：

hunyuan_video_custom_720p_fp8_scaled.safetensors
llava_llama3_fp16.safetensors
hunyuan_video_vae_bf16.safetensors
clip_l.safetensors

二、项目示例

多模态视频自定义

各种应用

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

2. 功能演示

使用步骤

首次克隆需要手动导入工作流文件进行加载

图生成视频

选择图片

输入 Prompt

结果输出

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下：

@misc{hu2025hunyuancustom,
      title={HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation}, 
      author={Teng Hu and Zhentao Yu and Zhengguang Zhou and Sen Liang and Yuan Zhou and Qin Lin and Qinglin Lu},
      year={2025},
      eprint={2505.04512},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.04512}, 
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

3.28 GB

标签

ComfyUI

视频生成

GitHub

Tencent-Hunyuan/HunyuanCustom

论文 URL

2505.04512

一、教程简介

本教程采用资源为单卡 RTX 4090，视频生成大约需要 10 分钟。建议使用具有 80GB 内存的 GPU，以获得更好的生成质量。

该工作流教程总共使用了下列模型文件：

hunyuan_video_custom_720p_fp8_scaled.safetensors
llava_llama3_fp16.safetensors
hunyuan_video_vae_bf16.safetensors
clip_l.safetensors

二、项目示例

多模态视频自定义

各种应用

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

2. 功能演示

使用步骤

首次克隆需要手动导入工作流文件进行加载

图生成视频

选择图片

输入 Prompt

结果输出

四、交流探讨

引用信息

本项目引用信息如下：

@misc{hu2025hunyuancustom,
      title={HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation}, 
      author={Teng Hu and Zhentao Yu and Zhengguang Zhou and Sen Liang and Yuan Zhou and Qin Lin and Qinglin Lu},
      year={2025},
      eprint={2505.04512},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.04512}, 
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

SAM3：视觉分割模型

2 个月前

腾讯混元 HunyuanVideo-Foley

1 个月前

PixelReasoner-RL：像素级视觉推理模型

2 个月前

vLLM+OpenWebUI 部署 VibeThinker-1.5B

3 个月前

F5-E2 TTS 只需 3 秒克隆任何音色

2 个月前

HunyuanOCR：腾讯混元端到端 OCR

2 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ComfyUI HunyuanCustom 视频生成工作流教程

一、教程简介

二、项目示例

多模态视频自定义

各种应用

三、运行步骤

四、交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ComfyUI HunyuanCustom 视频生成工作流教程

一、教程简介

二、项目示例

多模态视频自定义

各种应用

三、运行步骤

四、交流探讨

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

腾讯混元 HunyuanVideo-Foley

PixelReasoner-RL：像素级视觉推理模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ComfyUI HunyuanCustom 视频生成工作流教程

一、教程简介

二、项目示例

多模态视频自定义

各种应用

三、运行步骤

四、交流探讨

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

腾讯混元 HunyuanVideo-Foley

PixelReasoner-RL：像素级视觉推理模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

腾讯混元 HunyuanVideo-Foley

PixelReasoner-RL：像素级视觉推理模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

腾讯混元 HunyuanVideo-Foley

PixelReasoner-RL：像素级视觉推理模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

F5-E2 TTS 只需 3 秒克隆任何音色

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型