HyperAIHyperAI

Command Palette

Search for a command to run...

RTFormer:适用于实时语义分割的高效Transformer设计

Jian Wang1∗ Chenhui Gou2∗ Qiman Wu1∗ Haocheng Feng1 Junyu Han1 Errui Ding1 Jingdong Wang1†

摘要

近日,基于Transformer的网络在语义分割任务中展示了令人印象深刻的结果。然而,由于Transformer计算机制耗时较长,纯CNN(卷积神经网络)方法在实时语义分割领域仍占据主导地位。我们提出了一种名为RTFormer的高效双分辨率Transformer模型,该模型在性能和效率之间取得了比CNN模型更好的平衡。为了在类似GPU的设备上实现高效的推理,我们的RTFormer采用了线性复杂度的GPU友好型注意力机制,并放弃了多头机制。此外,我们发现跨分辨率注意力机制能够更有效地通过低分辨率分支传播高层次知识,从而为高分辨率分支收集全局上下文信息。我们在主流基准数据集上进行了大量实验,结果证明了所提出的RTFormer的有效性。它在Cityscapes、CamVid和COCOStuff数据集上达到了最先进的水平,并在ADE20K数据集上展示了有前景的结果。代码可在PaddleSeg仓库获取:https://github.com/PaddlePaddle/PaddleSeg


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供