15 天前

可学习边界引导的对抗训练

Jiequan Cui, Shu Liu, Liwei Wang, Jiaya Jia
可学习边界引导的对抗训练
摘要

先前的对抗训练方法在提升模型鲁棒性的同时,往往以牺牲自然数据上的准确率为代价。本文旨在缓解自然准确率的下降问题。我们提出一种新方法:利用一个干净模型(clean model)的输出 logits 来指导另一个鲁棒模型(robust model)的学习过程。考虑到经过充分训练的干净模型所生成的 logits 已经编码了自然数据中最具有判别性的特征,例如可泛化的分类边界(generalizable classifier boundary),我们通过约束鲁棒模型在输入对抗样本时的 logits,使其与干净模型在对应自然样本输入下的 logits 尽可能相似。这一机制使鲁棒模型能够继承干净模型的分类边界。此外,我们发现这种边界引导策略不仅有助于保持较高的自然数据准确率,还能进一步提升模型的对抗鲁棒性,为对抗机器学习领域提供了新的研究视角,并推动了该方向的进展。在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上的大量实验验证了所提方法的有效性。在不依赖任何额外真实或合成数据的情况下,我们的方法在 Auto-Attack 基准测试下于 CIFAR-100 上取得了新的最先进(state-of-the-art)鲁棒性表现。相关代码已公开,地址为:https://github.com/dvlab-research/LBGAT。

可学习边界引导的对抗训练 | 最新论文 | HyperAI超神经