2ヶ月前
局所線形化による敵対的ロバスト性
Chongli Qin; James Martens; Sven Gowal; Dilip Krishnan; Krishnamurthy Dvijotham; Alhussein Fawzi; Soham De; Robert Stanforth; Pushmeet Kohli

要約
対抗的訓練は、ノルム制約付きの対抗的摂動に対して堅牢な深層ニューラルネットワークを訓練する効果的な手法です。しかし、モデルのサイズや入力次元数が増えると、対抗的訓練の計算コストは著しく高くなり、実用的でなくなります。さらに、安価でそれゆえ弱い対抗者に対する訓練では、モデルは弱い攻撃に対して堅牢になりますが、強い攻撃には脆弱となります。これはしばしば勾配隠蔽(gradient obfuscation)という現象に起因すると考えられています。このようなモデルは、訓練データの近傍で損失関数が極めて非線形となり、対抗的サンプルが存在するにもかかわらず勾配ベースの攻撃が成功しにくくなります。本研究では、訓練データの近傍で損失関数が線形になるように促す新しい正則化項を導入します。これにより、勾配隠蔽を罰しつつ堅牢性を向上させることが可能となります。CIFAR-10およびImageNetでの広範な実験を通じて示した結果によれば、当社の正則化項を使用して訓練されたモデルは勾配隠蔽を回避し、対抗的訓練よりも大幅に高速に訓練することができます。この正則化項を使用することで、半径4/255のl-無限ノルム対抗的摂動に対する未標的強力な白箱攻撃においてImageNetで47%の対抗的精度を達成し、現在の最先端技術を超えることができました。また、CIFAR-10において8/255での最先端結果と同等の性能を達成しています。