15 天前

集成一切,无处不在:面向对抗鲁棒性的多尺度聚合

Stanislav Fort, Balaji Lakshminarayanan
集成一切,无处不在:面向对抗鲁棒性的多尺度聚合
摘要

对抗样本对深度神经网络的鲁棒性、可靠性及对齐性构成了重大挑战。本文提出一种新颖且易于使用的方法,通过引入多分辨率输入表示与中间层预测的动态自集成机制,实现高质量表征,从而提升模型的对抗鲁棒性。我们发现,中间层预测本身对旨在欺骗完整分类器的对抗攻击具有内在鲁棒性,并据此提出一种基于维克里拍卖(Vickrey auction)思想的鲁棒聚合机制,命名为 \textit{CrossMax},用于动态集成这些中间层输出。通过结合多分辨率输入与鲁棒集成策略,我们在不进行任何对抗训练或引入额外数据的情况下,在 CIFAR-10 和 CIFAR-100 数据集上实现了显著的对抗鲁棒性:在 RobustBench AutoAttack 套件($L_\infty=8/255$)上,使用微调后的 ImageNet 预训练 ResNet152 模型,分别达到约 72%(CIFAR-10)和约 48%(CIFAR-100)的对抗准确率。该结果在 CIFAR-10 上可与当前顶尖模型相媲美,在 CIFAR-100 上较现有最优专用方法提升约 5%。进一步在模型上叠加简单的对抗训练后,性能进一步提升至 CIFAR-10 约 78%、CIFAR-100 约 51%,分别超过当前最先进水平(SOTA)5% 和 9%,且在更具挑战性的 CIFAR-100 上取得更显著的增益。我们通过大量实验验证了该方法的有效性,并深入探讨了对抗鲁棒性与深度表征层级结构之间的内在关联。实验表明,针对我们模型的简单基于梯度的攻击,会产生可被人类直观理解的目标类别图像以及可解释的图像变化。作为副产品,我们利用所提出的多分辨率先验,成功将预训练分类器与 CLIP 模型转化为可控图像生成器,并开发出针对大型视觉-语言模型的有效可迁移攻击方法。

集成一切,无处不在:面向对抗鲁棒性的多尺度聚合 | 最新论文 | HyperAI超神经