17 天前

金字塔对抗训练提升ViT性能

Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun
金字塔对抗训练提升ViT性能
摘要

对抗性数据增强是视觉Transformer(Vision Transformer, ViT)具备强大泛化能力的关键因素之一。其中一种典型的数据增强技术是对抗训练(Adversarial Training, AT),然而已有大量研究表明,该方法通常会导致模型在干净样本上的准确率下降。针对这一问题,本文提出了一种简单而高效的方法——金字塔对抗训练(Pyramid Adversarial Training, PyramidAT),以全面提升ViT的整体性能。我们进一步结合了一种“匹配”的Dropout与随机深度(stochastic depth)正则化策略,即在干净样本与对抗样本上采用相同的Dropout和随机深度配置。这一设计类似于在卷积神经网络(CNN)中通过AdvProp实现的性能提升(该方法不直接适用于ViT),但我们的PyramidAT首次打破了ViT及其相关架构在分布内准确率与分布外鲁棒性之间的权衡关系。在仅使用ImageNet-1K数据训练的情况下,PyramidAT使ViT-B模型在ImageNet干净样本上的准确率提升了1.82个百分点。同时,在7项ImageNet鲁棒性评估指标上,性能也实现了显著提升,绝对提升幅度介于1.76%至15.68%之间。该方法在不引入额外数据的前提下,刷新了ImageNet-C(mCE为41.42)、ImageNet-R(53.92%)和ImageNet-Sketch(41.04%)三项基准的最新最优性能记录,仅依赖ViT-B/16主干网络与所提出的PyramidAT方法。相关代码已公开,可访问:pyramidat.github.io。