HyperAI超神经

摘要

近年来，Transformer 在计算机视觉领域取得了令人鼓舞的进展。在本工作中，我们通过对原始的金字塔视觉Transformer（PVT v1）进行三项改进，提出了新的基准模型，这三项改进包括：（1）线性复杂度注意力层，（2）重叠的图像块嵌入（overlapping patch embedding），以及（3）卷积型前馈网络。通过这些改进，PVT v2 将 PVT v1 的计算复杂度降低至线性级别，并在图像分类、目标检测和语义分割等基础视觉任务上实现了显著性能提升。值得注意的是，所提出的 PVT v2 在性能上达到或超越了近期一些先进模型，如 Swin Transformer。我们期望本工作能够推动计算机视觉领域中前沿 Transformer 研究的发展。代码已开源，地址为：https://github.com/whai362/PVT。

摘要

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

PVT v2：基于金字塔视觉Transformer的改进基线

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

PVT v2：基于金字塔视觉Transformer的改进基线

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

PVT v2：基于金字塔视觉Transformer的改进基线

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

摘要

用 AI 构建 AI

HyperAI Newsletters