11 天前

Transformer相较于CNN是否更具鲁棒性？

Yutong Bai, Jieru Mei, Alan Yuille, Cihang Xie

摘要

Transformer已成为视觉识别领域中一种强大的工具。除了在多种视觉基准测试中展现出具有竞争力的性能外，近期研究还指出，与卷积神经网络（CNNs）相比，Transformer具有更强的鲁棒性。然而，令人惊讶的是，我们发现这些结论源于不公平的实验设置：在不同规模下比较Transformer与CNN，并采用了不同的训练框架。本文旨在首次提供Transformer与CNN之间公平且深入的对比，重点关注鲁棒性评估。在统一的训练设置下，我们首先挑战了“Transformer在对抗鲁棒性方面优于CNN”这一既有观点。更令人意外的是，当CNN采用Transformer的训练策略（training recipes）时，其对抗攻击防御能力可轻易达到与Transformer相当的水平。在处理分布外（out-of-distribution）样本的泛化能力方面，我们发现，对（外部）大规模数据集进行预训练并非使Transformer优于CNN的必要条件。进一步的消融实验表明，Transformer所展现出的更强泛化能力，主要源于其自注意力（self-attention）类架构本身的特性，而非其他训练设置带来的影响。我们希望本研究能够帮助学术界更准确地理解并评估Transformer与CNN在鲁棒性方面的实际表现。相关代码与模型已公开发布于：https://github.com/ytongbai/ViTs-vs-CNNs。