
摘要
尽管先前的研究提出了大量旨在提升神经网络分类器对抗鲁棒性的方法,但从业者仍因这些方法带来的不可接受的干净准确率(clean accuracy)下降而犹豫不决。本文通过混合标准分类器与鲁棒分类器的输出概率,显著缓解了准确率与鲁棒性之间的权衡问题。其中,标准分类器专注于优化干净样本上的准确率,通常不具备鲁棒性。我们证明,鲁棒基分类器在正确样本与错误样本上置信度差异的大小,是实现性能提升的关键因素。除提供直观解释与实证证据外,本文还在合理假设下对混合分类器的鲁棒性进行了理论证明。此外,我们将一种对抗样本检测器引入混合网络架构中,使模型能够自适应地调整两个基模型的融合比例,进一步降低实现鲁棒性所付出的准确率代价。所提出的灵活方法被命名为“自适应平滑”(adaptive smoothing),可与现有乃至未来的各类提升干净准确率、鲁棒性或对抗样本检测能力的方法无缝结合。我们的实验评估涵盖了多种强攻击方法,包括AutoAttack和自适应攻击。在CIFAR-100数据集上,该方法在保持38.72%的ℓ∞-AutoAttack(ε = 8/255)鲁棒准确率的同时,实现了85.21%的干净准确率,成为提交时RobustBench CIFAR-100基准测试中第二稳健的方法,且相比所有已列出模型,干净准确率提升了整整十个百分点。实现该方法的代码已开源,地址为:https://github.com/Bai-YT/AdaptiveSmoothing。