17 天前
ImageBART:用于自回归图像生成的双向上下文与多项式扩散
Patrick Esser, Robin Rombach, Andreas Blattmann, Björn Ommer

摘要
自回归模型及其对数据似然的顺序因子分解近年来在图像表征与生成方面展现出巨大潜力。然而,这类模型在引入图像上下文时仅以线性的一维顺序进行,即仅关注已生成图像块的上方或左侧区域。这种单向、顺序性的注意力机制不仅违背了图像的自然结构——导致大量场景信息直到生成接近完成时才被纳入考虑,而且仅在单一尺度上处理整个图像,从而忽略了从整体场景到全局语义的高层次上下文信息。为解决上述问题,我们提出了一种从粗到细的上下文层次结构,将自回归建模与多项式扩散过程相结合:与多阶段扩散过程逐步去除信息以实现图像粗化不同,我们训练一个(较短的)马尔可夫链来逆向该过程。在每一阶段,所得的自回归图像模型ImageBART以从粗到细的方式逐步融合前序阶段的上下文信息。实验表明,相较于传统自回归模型,该方法在图像修改能力上显著提升,同时仍能实现高保真度的图像生成,这一切均得益于在压缩潜在空间中的高效训练。具体而言,我们的方法能够灵活地处理用户任意提供的掩码,实现局部图像编辑。因此,与纯自回归模型相比,该方法不仅可解决自由形式的图像修复(inpainting)问题,还可支持条件模型下的局部、文本引导的图像修改,且无需针对特定掩码进行额外训练。