Hunyuan-DiT : 一个强大的 Multi-Resolution Diffusion Transformer 与细粒度中文理解模型

该模型为首个中英双语 DiT 架构，一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力。研究团队为了构建混元 DiT，重新精心设计了 Transformer 结构、文本编码器和位置编码。构建了完整的数据管道，用于更新和评估数据，为模型优化迭代提供帮助。为了实现细粒度的文本理解，本项目训练了多模态大语言模型来优化图像的文本描述。最终，混元 DiT 能够与用户进行多轮对话，根据上下文生成并完善图像。

🎉 Hunyuan-DiT 主要特点

Hunyuan-DiT 是潜在空间中的 diffusion 模型，如下图所示。在潜 diffusion 模型的基础上，使用预训练的变分自编码器 (VAE) 将图像压缩到低维潜空间中，并训练 diffusion 模型，利用 diffusion 模型学习数据分布。该 diffusion 模型是用 transformer 参数化的。为了对文本提示进行编码，模型利用预训练的双语 (英语和汉语) CLIP 和多语种 T5 编码器的组合。

多轮文生图构造

理解自然语言指令并与用户进行多回合交互对于人工智能来说非常重要。 text-to-image 系统可以帮助构建一个动态的、迭代的创造过程，将用户的想法一步一步变为现实。在本节中，我们将详细介绍如何赋予 Hunyuan-DiT 执行多轮对话和图像生成的能力，训练 mlm 理解多轮用户对话，并输出用于图像生成的新文本提示符。

模型的生成表现

长文本输入

📈 与现有模型的比较

为了全面比较 HunyuanDiT 和其他模型的生成能力，研究团队构建了一个四维的测试集，该测试集邀请了超过 50 名专业评估人员进行评估包括文本-图像一致性、排除 AI 工件、主题清晰度、美学等方面的性能表现。

Model	Open Source	Text-Image Consistency (%)	Excluding AI Artifacts (%)	Subject Clarity (%)	Aesthetics (%)	Overall (%)
Model	Open Source	SDXL	✔	64.3	Aesthetics (%)	Overall (%)	60.6	91.1	76.3	42.7
PixArt-α	✔	68.3	60.9	93.2	77.5	45.5
Playground 2.5	✔	71.9	70.8	94.9	83.3	54.3
SD 3	✘	77.1	69.3	94.6	82.5	56.7
MidJourney v6	✘	73.5	80.2	93.5	87.2	63.3
DALL-E 3	✘	83.9	80.3	96.5	89.4	71.0
Hunyuan-DiT	✔	74.2	74.3	95.4	86.6	59.0

教程使用

1. 克隆并启动容器

「注意」由于模型较大，容器启动成功后可能需要 2～3 分钟左右的时间等待模型加载完毕方可使用。

2. 操作界面

采样步数越大生成效果越好但生成时间越久默认的采样步数生成时间在一分钟左右