17 天前

用于视觉识别的瓶颈Transformer

Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani
用于视觉识别的瓶颈Transformer
摘要

我们提出BoTNet,一种概念简洁但性能强大的主干网络架构,适用于图像分类、目标检测和实例分割等多种计算机视觉任务。仅通过将ResNet中最后三个瓶颈块中的空间卷积替换为全局自注意力机制,并保持其他结构不变,我们的方法在实例分割和目标检测任务上显著超越基线模型,同时大幅减少参数量,且推理延迟增加极少。通过BoTNet的设计,我们进一步揭示了:在引入自注意力机制后,ResNet的瓶颈块可被视为一种Transformer模块。在不依赖任何额外技巧的前提下,BoTNet在COCO实例分割基准测试中,基于Mask R-CNN框架取得了44.4%的Mask AP和49.7%的Box AP,超越了此前在COCO验证集上评估的ResNeSt模型所报告的最优单模型、单尺度结果。最后,我们对BoTNet架构进行了简单适配,用于图像分类任务,所得到的模型在ImageNet基准上实现了84.7%的Top-1准确率,且在TPU-v3硬件上计算速度比流行的EfficientNet模型快达1.64倍。我们希望这一简洁而高效的方法能为未来视觉领域自注意力模型的研究提供一个强有力的基准。