17日前

離散的 adversarial 訓練を活用した視覚表現の強化

Xiaofeng Mao, Yuefeng Chen, Ranjie Duan, Yao Zhu, Gege Qi, Shaokai Ye, Xiaodan Li, Rong Zhang, Hui Xue

要約

対向学習（Adversarial Training, AT）は、対向例（adversarial examples）に対する防御において最も効果的な手法の一つとして広く認識されているが、標準的な性能（standard performance）を著しく損なう傾向があるため、産業規模の実用や応用においてはその有用性が限定的である。驚くべきことに、自然言語処理（NLP）タスクにおいてはこの現象はまったく逆転しており、ATは一般化性能（generalization）を向上させる効果すら持っている。本研究では、NLPタスクにおけるATの利点が、離散的かつ記号的な入力空間に起因していることに着目した。このNLPスタイルのATの利点を画像処理に応用するため、離散的対向学習（Discrete Adversarial Training, DAT）を提案する。DATはVQGANを用いて画像データを離散的でテキストに類似した入力、すなわち「視覚的単語（visual words）」に変換し、その離散的な画像に対して記号的な対向摂動を用いて最大リスクを最小化する。さらに、分布の観点からDATの有効性を理論的に説明する。この手法は、視覚表現を強化するための即插即用（plug-and-play）技術として、画像分類、物体検出、自己教師学習といった複数のタスクにおいて顕著な性能向上を達成した。特に、マスクされた自己符号化（Masked Auto-Encoding, MAE）で事前学習したモデルを、追加データを一切用いずに本手法DATで微調整した場合、ImageNet-Cでは31.40 mCE、Stylized-ImageNetでは32.77%のトップ1精度を達成し、新たな最先端（state-of-the-art）を樹立した。コードはhttps://github.com/alibaba/easyrobustにて公開予定である。