摘要

近期的视觉生成模型在照片级真实感、排版能力、指令遵循以及交互式编辑方面取得了显著进展，但在空间推理、状态持久性、长程一致性及因果理解等方面仍面临挑战。我们认为，该领域应从单纯的外观合成迈向智能视觉生成：即基于结构、动态规律、领域知识及因果关系，生成具有合理性的视觉内容。为框定这一范式转变，我们提出了一种五级分类体系：原子生成（Atomic Generation）、条件生成（Conditional Generation）、上下文生成（In-Context Generation）、智能体生成（Agentic Generation）和世界模型生成（World-Modeling Generation）。该体系体现了从被动渲染器向交互式、具备自主智能体能力、并具有世界感知能力的生成器的演进。我们分析了推动这一发展的关键技术驱动力，包括流匹配（flow matching）、统一的“理解-生成”模型、改进的视觉表示、训练后优化（post-training）、奖励建模（reward modeling）、数据策展、合成数据蒸馏以及采样加速。此外，我们指出当前的评估往往因过分强调感知质量而忽视结构性、时序性和因果性缺陷，从而高估了实际进展。通过结合基准测试回顾、真实场景压力测试以及专家约束下的案例研究，本路线图提供了一种以能力为核心的视角，旨在理解、评估并推动下一代智能视觉生成系统的发展。

源 PDF