
摘要
基于学习的图像压缩方法在率失真性能上已显著优于传统的图像压缩标准。目前大多数基于学习的图像压缩模型均基于卷积神经网络(Convolutional Neural Networks, CNN)。尽管取得了重要进展,但以CNN为基础的模型在结构设计上并未充分考虑局部冗余的捕捉,尤其是非重复性纹理特征的建模,这一缺陷严重制约了重建图像的质量。因此,如何有效融合全局结构信息与局部纹理细节,成为基于学习的图像压缩方法的核心挑战。受视觉Transformer(Vision Transformer, ViT)与Swin Transformer近期进展的启发,我们发现将局部感知注意力机制与全局相关特征学习相结合,有望在图像压缩任务中实现理想效果。本文首先系统研究了多种注意力机制在局部特征学习中的表现,随后提出一种更为简洁而高效的基于窗口的局部注意力模块。所提出的窗口注意力机制具有高度灵活性,可作为即插即用组件,无缝集成至现有CNN或Transformer架构中,以提升压缩性能。此外,本文提出一种新型对称式Transformer(Symmetrical TransFormer, STF)框架,其下采样编码器与上采样解码器均采用绝对位置编码的Transformer块结构。大量实验评估结果表明,所提方法在多个公开数据集上均显著优于当前最先进的图像压缩方法。相关代码已公开发布于:https://github.com/Googolxx/STF。