Command Palette
Search for a command to run...
Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

要約
マルチモーダル大規模言語モデル(MLLM)は、転移可能な悪意のあるサンプルに対して依然として脆弱である。既存の手法は、通常、悪意のあるサンプルとターゲットサンプル間のグローバル特徴(例えばCLIPの[CLS]トークン)を一致させることでターゲット攻撃を実現しているが、パッチトークンに埋め込まれた豊かな局所情報にはしばしば着目していない。その結果、最適な一致が達成されず、特にクローズドソースモデルにおいて転移性が限定的となる。この問題を解決するために、特徴の最適一致に基づくターゲット指向の転移可能な悪意のある攻撃手法であるFOA-Attackを提案する。具体的には、グローバルレベルでは、コサイン類似度に基づくグローバル特徴損失を導入し、悪意のあるサンプルの粗い特徴をターゲットサンプルの特徴と一致させる。一方、Transformerにおける豊かな局所表現を考慮し、クラスタリング技術を活用して冗長な局所特徴を軽減するコンパクトな局所パターンを抽出する。その後、悪意のあるサンプルとターゲットサンプル間の局所特徴一致を最適輸送(OT)問題として定式化し、細粒度特徴一致を精緻化するための局所クラスタリング最適輸送損失を提案する。さらに、悪意のあるサンプル生成過程における複数モデルの影響を適応的に調整するための動的アンサンブルモデル重み付け戦略を提案し、転移性をさらに向上させる。様々なモデルを対象とした広範な実験により、本手法の優位性が実証された。特にクローズドソースのMLLMへの転移において、最先端手法を上回る性能を発揮した。
コードリポジトリ
jiaxiaojunqaq/foa-attack
公式
pytorch