15日前

Cassandra:敵対的摂動からのトロイの木馬ネットワークの検出

Xiaoyu Zhang, Ajmal Mian, Rohit Gupta, Nazanin Rahnavard, Mubarak Shah
Cassandra:敵対的摂動からのトロイの木馬ネットワークの検出
要約

深層ニューラルネットワークは、高い分類精度を備えるため、多くの重要なタスクに広く導入されている。多くの場合、モデルはベンダーから事前学習された形で入手されるが、そのトレーニングパイプラインが改ざんされてトロイの木馬(Trojan)挙動が組み込まれている可能性がある。これらの悪意ある挙動は攻撃者の意図に応じてトリガーされ得るため、深層モデルの広範な展開に対して深刻な脅威をもたらす。本研究では、事前学習済みモデルがトロイの木馬を内包しているか否かを検証する手法を提案する。本手法は、ネットワーク勾配から学習された adversarial perturbations( adversarial パーティクル)としてニューラルネットワークの「指紋」を捉える。バックドアの挿入はネットワークの決定境界を変化させ、その変化は adversarial perturbations に効果的に符号化される。本研究では、グローバルな($L_\infty$ および $L_2$ 範囲制限付き)摂動と、各摂動内のエネルギーが高い局所領域の両方を入力とする二重ストリームネットワークを用いて、トロイの木馬検出を実現する。前者はネットワークの決定境界を、後者は未知のトリガー形状をそれぞれ符号化する。さらに、トロイ化されたネットワークにおけるターゲットクラスを同定するための異常検出手法も提案する。本手法は、トリガーの種類やサイズ、学習データ、ネットワークアーキテクチャに依存しない不変性を有する。本手法は、MNIST、NIST-Round0、NIST-Round1 の各データセット上で評価され、最大1,000個の事前学習モデルを用いたことから、これまでにない規模のトロイの木馬ネットワーク検出に関する研究となる。その結果、92%を超える検出精度を達成し、現時点での最先端性能を設定した。

Cassandra:敵対的摂動からのトロイの木馬ネットワークの検出 | 最新論文 | HyperAI超神経