Command Palette
Search for a command to run...
Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

摘要
多模态大语言模型(MLLMs)仍易受可迁移对抗样本的攻击。尽管现有方法通常通过对齐对抗样本与目标样本之间的全局特征(如CLIP的[CLS]标记)来实现定向攻击,但往往忽视了patch标记中所蕴含的丰富局部信息,导致特征对齐效果不佳,迁移能力受限,尤其在闭源模型上表现更为明显。为解决这一局限性,本文提出一种基于特征最优对齐的定向可迁移对抗攻击方法——FOA-Attack,以提升对抗样本的迁移能力。具体而言,在全局层面,我们引入基于余弦相似度的全局特征损失,以对齐对抗样本与目标样本的粗粒度特征;在局部层面,考虑到Transformer架构中蕴含丰富的局部表征,我们采用聚类技术提取紧凑的局部模式,以缓解冗余局部特征的问题。随后,我们将对抗样本与目标样本之间的局部特征对齐建模为最优传输(Optimal Transport, OT)问题,并提出一种局部聚类最优传输损失,以优化细粒度特征对齐。此外,我们设计了一种动态集成模型加权策略,在生成对抗样本过程中自适应地平衡多个模型的影响,从而进一步提升迁移性能。大量实验结果表明,所提方法在多种模型上均表现出显著优势,尤其在向闭源多模态大语言模型迁移时,显著优于现有最先进方法。
代码仓库
jiaxiaojunqaq/foa-attack
官方
pytorch