HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer相较于CNN是否更具鲁棒性?

Yutong Bai Jieru Mei Alan Yuille Cihang Xie

摘要

Transformer已成为视觉识别领域中一种强大的工具。除了在多种视觉基准测试中展现出具有竞争力的性能外,近期研究还指出,与卷积神经网络(CNNs)相比,Transformer具有更强的鲁棒性。然而,令人惊讶的是,我们发现这些结论源于不公平的实验设置:在不同规模下比较Transformer与CNN,并采用了不同的训练框架。本文旨在首次提供Transformer与CNN之间公平且深入的对比,重点关注鲁棒性评估。在统一的训练设置下,我们首先挑战了“Transformer在对抗鲁棒性方面优于CNN”这一既有观点。更令人意外的是,当CNN采用Transformer的训练策略(training recipes)时,其对抗攻击防御能力可轻易达到与Transformer相当的水平。在处理分布外(out-of-distribution)样本的泛化能力方面,我们发现,对(外部)大规模数据集进行预训练并非使Transformer优于CNN的必要条件。进一步的消融实验表明,Transformer所展现出的更强泛化能力,主要源于其自注意力(self-attention)类架构本身的特性,而非其他训练设置带来的影响。我们希望本研究能够帮助学术界更准确地理解并评估Transformer与CNN在鲁棒性方面的实际表现。相关代码与模型已公开发布于:https://github.com/ytongbai/ViTs-vs-CNNs


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供