17 天前

关于视觉Transformer,每个人都应了解的三件事

Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Hervé Jégou
关于视觉Transformer,每个人都应了解的三件事
摘要

在自然语言处理领域取得初步成功之后,Transformer架构迅速在计算机视觉领域获得广泛应用,为图像分类、目标检测、图像分割以及视频分析等任务带来了当前最优的性能表现。本文基于简单且易于实现的视觉Transformer变体,提出三点重要见解:(1)视觉Transformer中的残差层通常按顺序处理,但可在一定程度上实现并行处理,而不会明显影响模型精度;(2)仅需微调注意力层的权重,即可有效将视觉Transformer适配至更高分辨率输入及其他分类任务,该方法显著降低计算开销,减少微调阶段的峰值内存占用,并支持在不同任务间共享大部分模型参数;(3)在Patch预处理阶段引入基于MLP的模块,可提升基于Patch掩码的类似BERT的自监督训练效果。我们利用ImageNet-1k数据集评估了上述设计选择的影响,并在ImageNet-v2测试集上验证了结论的可靠性。此外,通过在六个较小的数据集上进行迁移性能测试,进一步确认了所提方法的有效性。