17 天前
视觉Transformer的鲁棒性研究
Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez

摘要
近期研究表明,视觉Transformer(Vision Transformers, ViTs)对各类数据扰动表现出较强的鲁棒性。尽管这一特性在一定程度上可归因于自注意力机制,但目前对其内在机理仍缺乏系统的理解。本文旨在探究自注意力机制在学习鲁棒表征中的作用。研究受视觉Transformer中新兴的视觉分组现象启发,该现象表明自注意力可能通过增强中层表征来提升模型的鲁棒性。为此,我们提出了一类全注意力网络(Fully Attentional Networks, FANs),通过引入注意力驱动的通道处理结构,进一步强化了该能力。我们在多种层级化骨干网络上对所提设计进行了全面验证。所提出的模型在ImageNet-1k上取得了87.1%的准确率,在ImageNet-C上达到35.8%的平均类别错误率(mCE),参数量为76.8M,性能达到当前最优水平。此外,我们在两个下游任务——语义分割与目标检测中也验证了FANs在准确率与鲁棒性方面的领先表现。代码已开源,地址为:https://github.com/NVlabs/FAN。