Command Palette
Search for a command to run...
通过谱回归分析检测被植入特洛伊木马的深度神经网络
通过谱回归分析检测被植入特洛伊木马的深度神经网络
Samuele Pasini Jinhan Kim Paolo Tonella
摘要
现代深度神经网络(DNN)被反复微调,以整合新数据和功能。当更新数据无法完全可信时,这种演进式工作流程会引入安全风险,因为攻击者可能在微调过程中植入后门。我们提出了 MIST,一种通过分析模型在微调过程中内部表示的变化来进行后门检测的方法。MIST 并不试图重构触发条件,而是利用预激活谱(pre-activation spectra)来刻画良性模型的演进过程,并标记那些谱偏差与该参考基准不一致的更新。这种框架将后门检测视为针对模型更新的回归问题。在四个数据集和八种后门攻击上的实证评估表明,谱距离能够可靠地区分被植入后门的更新与干净的微调。MIST 在单次更新后优于最先进的检测准确率,且无需任何关于中毒数据或触发器的知识;在经历多步良性演进时,MIST 依然保持有效,并表现出渐进且有界的性能退化。这些结果表明,谱演进为检测恶意模型更新提供了一种稳定且假设较少的信号。
一句话总结
MIST 通过将检测任务构建为谱回归问题,来检测微调神经网络中的后门。该方法刻画良性预激活演化过程,通过谱偏差标记恶意更新,无需知晓中毒数据或触发器,即可在四个数据集和八种攻击场景下达到最优检测精度,并在多步良性微调中保持稳健的性能。
核心贡献
- MIST 提出了一种基于回归的框架,将后门检测视为识别模型谱演化中异常偏差的问题。该方法利用预激活谱刻画良性微调轨迹,从而在不依赖触发器重建或中毒数据的情况下隔离恶意更新。
- 该方法通过计算谱距离来量化内部表示的偏移,并将更新后的模型检查点与干净的参考基线进行验证。这种以参考为导向的机制能够标记偏离既定良性模式的更新,且与具体的攻击实现保持独立。
- 在四个数据集和八种后门攻击上的实证评估表明,谱距离能够可靠地区分中毒更新与干净微调。该方法在单步场景下优于三种最先进检测器,并在多步良性演化中保持稳健性能,性能下降幅度可控。
引言
深度神经网络在生产环境中通常会进行微调以适应新数据。这一实践对安全关键型系统至关重要,但当更新数据集被破坏时,系统极易遭受后门攻击。以往的检测方法通常分析孤立模型,并尝试重建未知的触发器模式。该策略难以应对不可察觉的输入,且依赖于关于触发器可见性的严格假设。研究团队将这一挑战重新定义为回归事件,利用预激活谱为良性演化建立基线。通过测量相对于该参考的谱偏差,其提出的 MIST 方法无需任何触发器知识即可可靠地标记恶意微调,在多样化的数据集和攻击向量上展现出更优的精度与鲁棒性。
数据集
- 数据集构成与来源:本节未明确说明数据集的构成或来源。
- 关键子集细节:未提供关于子集大小、来源或筛选标准的信息。
- 模型使用与处理:此处未概述训练集划分、混合比例或数据处理步骤。
- 处理与元数据:未描述任何裁剪策略、元数据构建或预处理工作流。
- 代码与检查点可用性:在公开 GitHub 仓库中发布了实现代码与源代码。受存储空间限制,模型检查点未公开托管,仅按需分发。
方法
团队利用神经网络激活值的谱分析开发了 MIST,该方法通过监控微调过程中的内部变化来检测后门模型。核心方法基于模型演化场景运行,即部署的模型会定期使用可能部分不可信的新数据进行更新。该方法假设可访问干净的基线模型、可信测试集以及新数据中的一小部分干净子集,用于探测内部行为,且无需访问中毒样本或触发器。MIST 的运行分为两个独立阶段:干净谱跟踪与异常检测。
在干净谱跟踪阶段,该框架为良性模型演化建立统计基线。通过仅使用可信数据反复模拟从干净训练到微调的转换过程来实现这一目标。对于每次模拟,干净训练集被划分为两个子集。模型 G0 在第一个子集上训练,随后在第二个子集上进行微调以生成 G1。通过比较 G0 和 G1 的激活谱来量化此次更新引发的内部变化。特定层 ℓ 和类别 c 的模型谱表示首先通过筛选测试集中模型预测为类别 c 的输入来构建,接着提取这些输入的预激活值 z(ℓ)(x),对其进行归一化,并将其离散化为固定数量区间的直方图。该直方图经过归一化形成概率分布,即为激活谱。计算 G0 和 G1 各类别谱之间的 L2 距离,并对多次模拟更新重复此过程,以填充干净谱距离分布(CSDD)。该分布捕捉了良性微调下谱变化的典型幅度与波动性。
在异常检测阶段,该方法将新生成的模型 Mi+1 与其前代模型 Mi 进行评估对比。在干净测试集上计算两个模型之间的谱距离,确保不对中毒输入的可获得性做任何假设。该距离表示为一个向量 x,用于总结所有类别的内部变化。使用平方马氏距离 DM2 量化该观测变化相对于基线 CSDD 的偏差,该方法考虑了各类别谱变化之间的相关性。CSDD 的均值 μ 和协方差 Σ 用于定义参考分布。为确保数值稳定性,协方差矩阵使用 Ledoit-Wolf 收缩估计量进行正则化。随后将平方马氏距离 DM2 与阈值 τ 进行比较,该阈值确定为自由度为 C 的 χ2 分布的 α-分位数,其中 C 为类别总数。若 DM2 超过 τ,则该更新被标记为异常,模型被分类为可能包含后门;否则,认为其与良性演化一致。
实验
该评估在多种图像分类数据集和多种攻击类型上检验了利用激活谱的后门检测方法 MIST,以验证恶意更新是否会引发与良性微调可区分的谱偏差。结果证实,这些谱差异能够可靠地区分受损模型与干净模型,使该方法在单次更新后持续优于现有检测器,同时保持极低的误报率。在重复微调场景下,该方法展现出稳健的韧性,其性能通过误报率的受控增加而逐渐下降,而非漏报,最终确立了谱跟踪作为验证持续演化神经网络的一种稳定且实用的方法。
通过评估利用谱分析区分良性与恶意模型更新的能力,检验了 MIST 后门检测技术的有效性。结果表明,谱距离能够可靠地区分后门模型与干净模型,在单步微调场景中具有高检测精度,并在多次良性更新下保持持续的性能。MIST 持续优于基线方法,误报率更低,即使在模型偏离原始参考时仍能维持检测能力。谱距离在多个数据集和攻击类型上有效区分了后门模型与干净微调模型。MIST 在单步微调场景中实现高检测精度,以更少的误报率超越最先进检测器。在多步演化下,检测性能逐渐下降,这主要归因于误报率增加而非漏报后门。
通过对比干净参考检查点,分析微调模型中的谱变化来评估 MIST 后门检测技术的有效性。结果表明,谱距离能有效区分后门模型与干净模型,在多个数据集和攻击上保持高检测精度。该方法在重复模型更新下仍具鲁棒性,尽管因误报增加导致性能略有下降。其检测效果持续优于最先进基线,尤其在最小化误报方面表现突出。谱距离在各种攻击和数据集上可靠地区分了后门模型与干净微调模型。MIST 实现高检测精度,以更少的误报持续超越现有后门检测器。在多步演化下,检测性能逐渐下降,主要归因于误报增加而非漏报。
通过评估利用谱分析区分良性与恶意模型更新的能力,检验了 MIST 后门检测技术的有效性。结果表明,MIST 在多种数据集和攻击类型上实现高检测精度,持续超越最先进检测器。该方法在多步模型演化下仍保持有效,尽管因良性漂移导致误报增加而使性能略有下降。MIST 跨数据集和攻击类型实现高检测精度,优于现有后门检测器。该方法基于谱差异可靠地区分后门模型与干净微调模型,即使在下多步演化中亦如此。随着重复良性更新,检测性能逐渐下降,主要归因于误报增加而非漏报。
实验评估了 MIST 后门检测方法,该方法利用谱分析,通过对比微调检查点与干净参考来区分良性与恶意模型更新。结果验证了谱距离在单步微调场景中能够可靠地隔离受损模型,同时以更显著的更低误报率持续超越现有检测器。尽管重复良性更新导致误报逐渐增加,该技术仍保持稳健的检测能力,并在不遗漏实际威胁的前提下实现性能的平稳下降。总体而言,本研究证明基于谱的监控为识别持续演化的机器学习流水线中的后门更新提供了一种高效且具韧性的方法。