17日前

ピラミッド対抗訓練はViTの性能を向上させる

Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun
ピラミッド対抗訓練はViTの性能を向上させる
要約

視覚変換器(ViT)の強力な汎化能力の鍵をなすのが、攻撃的なデータ拡張(aggressive data augmentation)である。その一例として、敵対的訓練(adversarial training: AT)が挙げられるが、多くの先行研究では、この手法がしばしばクリーンな精度(clean accuracy)を低下させることを示している。本研究では、ViTの全体的な性能を向上させるシンプルかつ効果的な手法として、ピラミッド敵対的訓練(Pyramid adversarial training: PyramidAT)を提案する。これと併せて、「一致する(matched)」ドロップアウトおよび確率的深さ正則化(stochastic depth regularization)を用いる。この正則化手法は、クリーンサンプルと敵対的サンプルの両方に同一のドロップアウトおよび確率的深さの設定を適用する。畳み込みニューラルネットワーク(CNN)におけるAdvPropの改善効果(ViTには直接適用できないが類似)と同様に、本研究のピラミッド敵対的訓練は、ViTおよび関連アーキテクチャにおいて、分布内精度(in-distribution accuracy)と分布外ロバストネス(out-of-distribution robustness)のトレードオフを打破する。ImageNet-1Kデータのみで学習したViT-Bモデルにおいて、クリーン精度が1.82%の絶対値向上を達成するとともに、ImageNetの7つのロバストネス評価指標において、1.76%~15.68%の絶対値改善を同時に実現した。本手法は、追加データを一切使用せずに、ImageNet-C(mCE: 41.42)、ImageNet-R(53.92%)、ImageNet-Sketch(41.04%)において、それぞれ新たなSOTA(state-of-the-art)を達成した。実装コードは、pyramidat.github.ioにて公開されている。

ピラミッド対抗訓練はViTの性能を向上させる | 最新論文 | HyperAI超神経