2ヶ月前
PuVAE: 対抗的例を浄化するための変分オートエンコーダー
Uiwon Hwang; Jaewoo Park; Hyemi Jang; Sungroh Yoon; Nam Ik Cho

要約
深層ニューラルネットワークは広範囲に使用されており、多くの分野で優れた性能を示しています。しかし、これらのネットワークは推論時に入力データに巧妙に設計された摂動を適用することでネットワークの機能を妨害する敵対的攻撃に対して脆弱です。特定の攻撃に対処するためにいくつかの防御手法が提案されていますが、他の攻撃手法はこれらの防御機構を回避することができます。したがって、本研究では敵対的サンプルを浄化する方法である「浄化変分オートエンコーダ(Purifying Variational Autoencoder: PuVAE)」を提案します。提案手法は、各クラスの多様体上への射影により敵対的摂動を取り除き、最も近い射影点を浄化されたサンプルとして決定します。実験を通じて、PuVAEが事前知識なしで様々な攻撃手法に対して堅牢性を持つことを示しました。実験結果によると、提案手法は最先端の防御手法と競合する性能を示し、推論時間は最先端の浄化モデルであるDefense-GANよりも約130倍高速でした。