摘要

我们推出了Seedream 4.0，这是一个高效且高性能的多模态图像生成系统，能够在单一框架内统一实现文本到图像（T2I）生成、图像编辑以及多图像合成。我们设计了一种高效扩散Transformer架构，并配备功能强大的变分自编码器（VAE），显著减少了图像标记（image tokens）的数量。这一设计不仅提升了模型训练效率，还支持快速生成原生高分辨率图像（例如1K至4K）。Seedream 4.0基于数十亿规模的文本-图像对进行预训练，覆盖广泛的主题类别与以知识为中心的概念。通过在数百个垂直场景中进行广泛的数据收集，并结合优化策略，确保了训练过程的稳定性和大规模扩展能力，同时具备出色的泛化性能。在后训练阶段，我们引入了一个经过精细调优的视觉语言模型（VLM），实现T2I生成与图像编辑任务的联合多模态训练。为加速推理过程，系统集成了对抗性蒸馏、分布匹配、量化技术以及推测性解码（speculative decoding）等方法，可在不依赖大语言模型（LLM）或视觉语言模型（VLM）作为外部提示引擎（PE模型）的情况下，实现2K图像生成仅需约1.8秒的推理速度。全面的评估结果表明，Seedream 4.0在文本到图像生成与多模态图像编辑任务上均达到当前最先进水平。尤其在复杂任务中展现出卓越的多模态能力，包括精确的图像编辑、上下文推理能力，并支持多图像参考生成，可一次性输出多张图像。这一特性将传统T2I系统拓展为更具交互性与多维创造性的工具，推动生成式人工智能在创意表达与专业应用领域的边界不断拓展。Seedream 4.0现已上线，可通过以下链接体验：https://www.volcengine.com/experience/ark?launch=seedream。

源 PDF 查看代码