17 天前
PVT v2:基于金字塔视觉Transformer的改进基线
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

摘要
近年来,Transformer 在计算机视觉领域取得了令人鼓舞的进展。在本工作中,我们通过对原始的金字塔视觉Transformer(PVT v1)进行三项改进,提出了新的基准模型,这三项改进包括:(1)线性复杂度注意力层,(2)重叠的图像块嵌入(overlapping patch embedding),以及(3)卷积型前馈网络。通过这些改进,PVT v2 将 PVT v1 的计算复杂度降低至线性级别,并在图像分类、目标检测和语义分割等基础视觉任务上实现了显著性能提升。值得注意的是,所提出的 PVT v2 在性能上达到或超越了近期一些先进模型,如 Swin Transformer。我们期望本工作能够推动计算机视觉领域中前沿 Transformer 研究的发展。代码已开源,地址为:https://github.com/whai362/PVT。