15 天前

Cassandra:从对抗性扰动中检测后门网络

Xiaoyu Zhang, Ajmal Mian, Rohit Gupta, Nazanin Rahnavard, Mubarak Shah
Cassandra:从对抗性扰动中检测后门网络
摘要

深度神经网络因其卓越的分类准确率,正被广泛应用于诸多关键任务中。在许多情况下,预训练模型来自第三方供应商,而这些供应商可能在训练过程中植入后门行为,从而将恶意功能嵌入模型。此类恶意行为可在攻击者任意触发下激活,对深度模型的大规模部署构成严重威胁。为此,本文提出一种方法,用于验证预训练模型是否被植入后门(即“Trojaned”)或为良性模型。我们的方法通过捕捉神经网络在梯度学习过程中形成的对抗性扰动特征,提取模型的“指纹”。向网络中植入后门会改变其决策边界,而这些边界信息被有效编码在对抗性扰动之中。为此,我们构建了一个双流网络架构,分别从全局($L_\infty$ 与 $L_2$ 有界)扰动以及每个扰动中能量高度集中的局部区域进行特征提取。前者编码了网络的决策边界信息,后者则用于表征未知的触发器形状。此外,我们还提出一种异常检测方法,用于识别被植入后门的模型中的目标类别。所提方法对触发器类型、触发器大小、训练数据分布以及网络架构均具有不变性,具备良好的泛化能力。我们在 MNIST、NIST-Round0 和 NIST-Round1 数据集上对方法进行了全面评估,共测试了多达 1,000 个预训练模型,成为迄今规模最大的后门网络检测研究。实验结果表明,该方法在检测准确率上超过 92%,达到了当前最先进的水平。

Cassandra:从对抗性扰动中检测后门网络 | 最新论文 | HyperAI超神经