2ヶ月前

敵対的攻撃に耐える深層学習モデルに向けて

Aleksander Madry; Aleksandar Makelov; Ludwig Schmidt; Dimitris Tsipras; Adrian Vladu
敵対的攻撃に耐える深層学習モデルに向けて
要約

最近の研究では、深層ニューラルネットワークが敵対的サンプルに対して脆弱であることが示されています。敵対的サンプルとは、自然なデータとほとんど区別がつかない入力でありながら、ネットワークによって誤分類されるものです。実際、最新の研究成果は、敵対的攻撃の存在が深層学習モデルの固有の弱点である可能性を示唆しています。この問題に対処するために、我々は堅牢最適化の観点からニューラルネットワークの敵対的堅牢性を研究しました。このアプローチは、これまでに行われた多くの研究を包括的に捉える広範で統一的な視点を提供します。また、その原理に基づいた性質により、信頼性が高く、ある意味普遍的な訓練方法と攻撃方法を特定することが可能になります。特に、これらの方法は任意の敵対者に対する具体的なセキュリティ保証を規定しており、これにより多様な敵対的攻撃に対する抵抗性が大幅に向上したネットワークを訓練することができます。また、1次元敵対者に対するセキュリティという概念が自然かつ広範なセキュリティ保証として提案されています。我々は、このような明確に定義されたクラスの敵対者に対する堅牢性が完全に抵抗性のある深層学習モデルへの重要な一歩であると考えています。コードと事前学習済みモデルは以下のURLから入手可能です: https://github.com/MadryLab/mnist_challenge および https://github.com/MadryLab/cifar10_challenge。注:「1次元敵対者」(first-order adversary)という表現は一般的ではありませんが、「1次の」という修飾語を使用することで技術的な正確さを保っています。「1次元」ではなく「1次の」と訳しているのは、「一次微分」や「一次近似」などとの類似性からです。

敵対的攻撃に耐える深層学習モデルに向けて | 最新論文 | HyperAI超神経