15日前

エナブリ・オブリーエリウェア:敵対的頑健性のためのマルチスケールアグリゲーション

Stanislav Fort, Balaji Lakshminarayanan
エナブリ・オブリーエリウェア:敵対的頑健性のためのマルチスケールアグリゲーション
要約

敵対的サンプルは、深層ニューラルネットワークの堅牢性、信頼性、および整合性に大きな課題をもたらす。本研究では、多解像度入力表現と中間層予測の動的自己アンサンブルを活用することで、高品質な表現を実現し、敵対的堅牢性を達成する新しいかつ使いやすいアプローチを提案する。我々は、中間層の予測が、全体の分類器を欺くように設計された敵対的攻撃に対して本質的に堅牢であることを示し、これを動的にアンサンブルするための堅牢な集約メカニズムである「CrossMax」として、ヴィックレーロック(Vickrey auction)に基づく手法を提案する。多解像度入力と堅牢なアンサンブルを組み合わせることで、敵対的訓練や追加データを一切用いずに、CIFAR-10およびCIFAR-100データセットにおいて顕著な敵対的堅牢性を達成した。微調整済みのImageNet事前学習済みResNet152を用いて、RobustBench AutoAttackスイート($L_\infty=8/255$)において、CIFAR-10では約72%、CIFAR-100では約48%の敵対的精度を達成した。これはCIFAR-10では上位3モデルと同等の性能であり、CIFAR-100では現在の最良の専用アプローチと比較して+5%の向上を達成した。さらに単純な敵対的訓練を追加することで、CIFAR-10では約78%、CIFAR-100では約51%の敵対的精度を達成し、それぞれSOTA(最良)性能を5%および9%向上させ、特に難易度の高いCIFAR-100においてより顕著な改善が得られた。広範な実験を通じて本アプローチの有効性を検証し、敵対的堅牢性と深層表現の階層構造との相互作用についての知見を提供する。また、我々のモデルに対する単純な勾配ベース攻撃が、ターゲットクラスのヒューマンインタープリタブルな画像および解釈可能な画像変化を生成することを示した。副次的な成果として、多解像度事前知識を活用することで、事前学習済み分類器やCLIPモデルを制御可能な画像生成器に変換し、大規模な視覚言語モデルに対する成功した転送可能攻撃を実現した。

エナブリ・オブリーエリウェア:敵対的頑健性のためのマルチスケールアグリゲーション | 最新論文 | HyperAI超神経