摘要

近年来，对综合性多模态模型的广泛关注推动了多种模态统一的需求。然而，当前的统一方法在技术路径上仍存在显著差异。在连续视觉生成任务中，尽管基于扩散模型的全序列生成方法具有优势，但其与文本领域中自回归建模（autoregressive modeling）的范式存在根本性分歧。我们认为，自回归建模——即基于过去确定性经验预测未来——在构建视觉生成模型以及未来统一的多模态模型中仍具有关键作用。本文提出一种在自回归建模与全参数扩散模型之间进行插值的新型视觉信息建模方法。核心思想是提出ACDiT（Autoregressive blockwise Conditional Diffusion Transformer），一种基于块级条件扩散机制的自回归Transformer架构。该模型中，扩散过程的块大小（即自回归单元的大小）可灵活调节，从而在逐标记自回归与全序列扩散之间实现平滑过渡。ACDiT实现简单，仅需在训练阶段构建一个“跳过因果注意力掩码”（Skip-Causal Attention Mask, SCAM）即可完成。在推理阶段，模型通过交替执行扩散去噪与自回归解码，充分利⽤KV缓存（KV-Cache），显著提升生成效率。我们在图像与视频生成任务上验证了ACDiT的有效性。此外，实验表明，得益于自回归建模的结构优势，ACDiT即使仅在扩散目标下训练，也能无缝迁移至视觉理解任务中。对自回归建模与扩散机制之间权衡的深入分析进一步揭示了ACDiT在长时程视觉生成任务中的巨大潜力。这些特性使其有望成为未来统一多模态模型的核心架构。

源 PDF