
摘要
尽管近年来对抗攻击方法取得了显著进展,现有的针对可解释人工智能(XAI)监控机制的攻击手段仍存在可被检测且效率较低的问题。本文提出了一种自适应的注意力掩码生成框架,旨在实现隐蔽性好、可解释性强且高效的PGD图像分类对抗攻击,从而在XAI监控环境下有效绕过防御机制。具体而言,我们采用突变XAI混合策略与多任务自监督X-UNet模型生成注意力掩码,以指导PGD攻击过程。在MNIST(MLP)和CIFAR-10(AlexNet)数据集上的实验结果表明,所提方法在隐蔽性、效率与可解释性三者之间实现了更优的平衡,显著优于基准方法PGD、Sparsefool以及当前最先进的SINIFGSM方法,对于成功欺骗当前最先进的防御型分类器具有重要意义。