科学家首次提出防御人工智能密码分析攻击的新机制
研究人员首次提出有效防御机制,可抵御针对人工智能系统的“密码分析型参数窃取攻击”。这类攻击通过数学手段精准提取AI模型的核心参数,从而复制整个模型,严重威胁AI系统的知识产权安全。 该研究由北卡罗来纳州立大学的博士生艾什莉·库里安(Ashley Kurian)主导,通讯作者为电气与计算机工程系副教授阿丁·艾苏(Aydin Aysu)。相关论文已发布于arXiv预印本平台。研究指出,当前已有实际发生的密码分析攻击,且其效率和频率正在上升,因此必须提前部署防御措施,否则一旦参数被窃取,再补救已为时过晚。 所谓密码分析型参数提取攻击,是指攻击者通过向AI模型输入数据并观察输出,利用数学方法反推模型内部参数。这类攻击目前主要针对神经网络结构,而绝大多数商业AI系统(包括ChatGPT等大语言模型)均基于神经网络,因此面临极大风险。 研究人员发现,这类攻击的关键弱点在于:攻击效果依赖于同一层神经元之间的差异性。神经元差异越大,攻击越容易成功。基于这一洞察,团队提出一种新型防御策略——在训练过程中,通过特定方式使同一层内的神经元趋于相似,从而构建“相似性屏障”。 该方法可在第一层或多层神经元中实施,也可仅针对部分神经元。实验表明,经过该机制训练的模型在功能上几乎不受影响,任务准确率变化小于1%,部分模型甚至略有提升。更重要的是,在实际测试中,原本可在四小时内完成参数提取的模型,经过防御加固后,即使持续攻击数日也无法成功提取参数。 此外,研究团队还建立了一套理论框架,可量化评估模型抵御此类攻击的能力,无需长时间实际攻击即可预判安全性。 研究人员表示,该防御机制已验证有效,欢迎产业界合作落地。尽管安全与攻击始终处于动态博弈中,但他们希望未来能获得足够支持,持续推动AI安全技术发展。该论文将发表于2025年12月2日至7日在圣地亚哥举行的第39届神经信息处理系统大会(NeurIPS)。
