8 个月前

摘要

多尺度视觉Transformer（Multi-scale Vision Transformer, ViT）已成为计算机视觉任务中的强大骨干网络，然而Transformer中的自注意力计算复杂度随输入图像块数量呈二次增长。因此，现有方法通常对键（keys）和值（values）采用下采样操作（如平均池化）以大幅降低计算开销。本文指出，此类过于激进的下采样设计具有非可逆性，尤其在处理物体中的高频成分（如纹理细节）时不可避免地导致信息丢失。受小波理论的启发，我们提出了一种新型的小波视觉Transformer（Wavelet Vision Transformer, Wave-ViT），将小波变换与自注意力学习统一建模，实现可逆的下采样过程。该设计使得键和值的下采样在无损的前提下进行，从而在保持高精度的同时显著提升模型效率，实现更优的效率-精度权衡。此外，通过引入逆小波变换，模型能够聚合具有更大感受野的局部上下文信息，进一步增强自注意力输出的表达能力。我们在多个视觉任务（如图像分类、目标检测和实例分割）上进行了广泛实验，验证了Wave-ViT的优越性能。结果表明，其在与现有先进ViT骨干网络相当的浮点运算量（FLOPs）下，仍能取得更优的性能表现。项目源代码已公开，地址为：\url{https://github.com/YehLi/ImageNetModel}。

源 PDF