Command Palette
Search for a command to run...

摘要
我们推出了Seedream 4.0,这是一个高效且高性能的多模态图像生成系统,能够在单一框架内统一实现文本到图像(T2I)生成、图像编辑以及多图像合成。我们设计了一种高效扩散Transformer架构,并配备功能强大的变分自编码器(VAE),显著减少了图像标记(image tokens)的数量。这一设计不仅提升了模型训练效率,还支持快速生成原生高分辨率图像(例如1K至4K)。Seedream 4.0基于数十亿规模的文本-图像对进行预训练,覆盖广泛的主题类别与以知识为中心的概念。通过在数百个垂直场景中进行广泛的数据收集,并结合优化策略,确保了训练过程的稳定性和大规模扩展能力,同时具备出色的泛化性能。在后训练阶段,我们引入了一个经过精细调优的视觉语言模型(VLM),实现T2I生成与图像编辑任务的联合多模态训练。为加速推理过程,系统集成了对抗性蒸馏、分布匹配、量化技术以及推测性解码(speculative decoding)等方法,可在不依赖大语言模型(LLM)或视觉语言模型(VLM)作为外部提示引擎(PE模型)的情况下,实现2K图像生成仅需约1.8秒的推理速度。全面的评估结果表明,Seedream 4.0在文本到图像生成与多模态图像编辑任务上均达到当前最先进水平。尤其在复杂任务中展现出卓越的多模态能力,包括精确的图像编辑、上下文推理能力,并支持多图像参考生成,可一次性输出多张图像。这一特性将传统T2I系统拓展为更具交互性与多维创造性的工具,推动生成式人工智能在创意表达与专业应用领域的边界不断拓展。Seedream 4.0现已上线,可通过以下链接体验:https://www.volcengine.com/experience/ark?launch=seedream。