HyperAIHyperAI

Command Palette

Search for a command to run...

PVT v2:基于金字塔视觉Transformer的改进基线

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

近年来,Transformer 在计算机视觉领域取得了令人鼓舞的进展。在本工作中,我们通过对原始的金字塔视觉Transformer(PVT v1)进行三项改进,提出了新的基准模型,这三项改进包括:(1)线性复杂度注意力层,(2)重叠的图像块嵌入(overlapping patch embedding),以及(3)卷积型前馈网络。通过这些改进,PVT v2 将 PVT v1 的计算复杂度降低至线性级别,并在图像分类、目标检测和语义分割等基础视觉任务上实现了显著性能提升。值得注意的是,所提出的 PVT v2 在性能上达到或超越了近期一些先进模型,如 Swin Transformer。我们期望本工作能够推动计算机视觉领域中前沿 Transformer 研究的发展。代码已开源,地址为:https://github.com/whai362/PVT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供