Command Palette
Search for a command to run...
Wave-ViT:统一小波与Transformer的视觉表征学习
Wave-ViT:统一小波与Transformer的视觉表征学习
Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei
摘要
多尺度视觉Transformer(Multi-scale Vision Transformer, ViT)已成为计算机视觉任务中的强大骨干网络,然而Transformer中的自注意力计算复杂度随输入图像块数量呈二次增长。因此,现有方法通常对键(keys)和值(values)采用下采样操作(如平均池化)以大幅降低计算开销。本文指出,此类过于激进的下采样设计具有非可逆性,尤其在处理物体中的高频成分(如纹理细节)时不可避免地导致信息丢失。受小波理论的启发,我们提出了一种新型的小波视觉Transformer(Wavelet Vision Transformer, Wave-ViT),将小波变换与自注意力学习统一建模,实现可逆的下采样过程。该设计使得键和值的下采样在无损的前提下进行,从而在保持高精度的同时显著提升模型效率,实现更优的效率-精度权衡。此外,通过引入逆小波变换,模型能够聚合具有更大感受野的局部上下文信息,进一步增强自注意力输出的表达能力。我们在多个视觉任务(如图像分类、目标检测和实例分割)上进行了广泛实验,验证了Wave-ViT的优越性能。结果表明,其在与现有先进ViT骨干网络相当的浮点运算量(FLOPs)下,仍能取得更优的性能表现。项目源代码已公开,地址为:\url{https://github.com/YehLi/ImageNetModel}。