2 个月前

减少Transformer在多元图像修复中的信息损失

Qiankun Liu; Zhentao Tan; Dongdong Chen; Qi Chu; Xiyang Dai; Yinpeng Chen; Mengchen Liu; Lu Yuan; Nenghai Yu
减少Transformer在多元图像修复中的信息损失
摘要

变压器模型在多元图像修复领域近期取得了显著的成功。然而,我们发现现有的基于变压器的解决方案将每个像素视为一个标记(token),从而在两个方面面临信息丢失的问题:1)为了提高效率,它们通常将输入图像下采样到更低分辨率,导致掩模区域边界的信息丢失和额外的错位;2)它们将 $256^3$ 的 RGB 像素量化为少量(例如 512 个)量化像素。量化像素的索引被用作变压器输入和预测目标的标记。尽管额外使用了一个卷积神经网络(CNN)来上采样和细化低分辨率结果,但恢复丢失的信息仍然非常困难。为了尽可能保留输入信息,我们提出了一种新的基于变压器的框架“PUT”。具体而言,为了避免输入下采样同时保持计算效率,我们设计了一种基于补丁的自编码器 P-VQVAE,其中编码器将掩模图像转换为非重叠的补丁标记,解码器则从修复后的标记中恢复掩模区域,同时保持未掩模区域不变。为了消除量化带来的信息损失,我们应用了无量化变压器(Un-Quantized Transformer, UQ-Transformer),该模型直接以 P-VQVAE 编码器提取的特征作为输入而不进行量化,并仅将量化标记作为预测目标。大量实验表明,PUT 在图像保真度方面显著优于现有最先进方法,尤其是在处理大面积掩模区域和复杂的大规模数据集时。代码已发布在 https://github.com/liuqk3/PUT。

减少Transformer在多元图像修复中的信息损失 | 最新论文 | HyperAI超神经