15 天前

语言引导的对抗净化

Himanshu Singh, A V Subramanyam
语言引导的对抗净化
摘要

基于生成模型的对抗净化方法在对抗防御方面表现出优异的性能。这类方法具有分类器无关性和攻击无关性,因而具备较强的通用性,但通常计算开销较大。近年来,扩散模型与得分网络(score networks)的进展显著提升了图像生成能力,从而也推动了对抗净化技术的发展。另一类高效对抗防御方法——对抗训练,则需依赖对攻击向量的特定先验知识,因而必须在大量对抗样本上进行充分训练。为克服上述局限,本文提出一种新型框架——语言引导的对抗净化(Language Guided Adversarial Purification, LGAP),该框架利用预训练的扩散模型与图像描述生成器,实现对对抗攻击的有效防御。给定输入图像后,我们的方法首先生成对应的文本描述(caption),再将该描述作为语义指导,通过扩散网络引导对抗净化过程。实验结果表明,LGAP在面对多种强对抗攻击时均表现出色,显著提升了模型的对抗鲁棒性。更重要的是,该方法无需针对特定任务进行专门的网络训练,即可超越多数现有防御技术。这一结果凸显了大规模数据预训练模型所具备的强泛化能力,也为未来对抗防御研究指明了极具潜力的新方向。

语言引导的对抗净化 | 最新论文 | HyperAI超神经