ZipIR:用于高分辨率图像修复的潜在金字塔扩散Transformer
Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
发布日期: 4/16/2025

摘要
近期生成模型的进展显著提升了图像修复能力,特别是通过强大的扩散模型,这些模型在语义细节和局部保真度的恢复方面表现出色。然而,在超高分辨率下部署这些模型时,由于长程注意力机制的计算需求,质量与效率之间存在关键的权衡。为了解决这一问题,我们引入了ZipIR,这是一种新颖的框架,旨在提高高分辨率图像修复的效率、可扩展性和长程建模能力。ZipIR采用了一种高度压缩的潜在表示方法,将图像压缩32倍,有效减少了空间标记的数量,并使使用高容量模型(如扩散变压器(DiT))成为可能。为此,我们提出了一种潜在金字塔VAE(LP-VAE)设计,该设计将潜在空间结构化为子带,以简化扩散训练。ZipIR在高达2K分辨率的完整图像上进行训练,超越了现有的基于扩散的方法,在从严重退化的输入中恢复高分辨率图像时提供了无与伦比的速度和质量。