
要約
深層ニューラルネットワークは訓練分布のフィッティングにおいて優れた性能を発揮するが、過学習に陥りやすく、敵対的攻撃に対して脆弱であることが知られている。このような問題に対応するため、近年、マクスアップ(mixup)に基づく増強手法が多数提案されている。しかしながら、これらの手法は主に未観測の仮想例の生成に注力しており、場合によってはネットワークに誤った教師信号を提供する可能性がある。このような課題を解決するため、本研究では、自然画像の顕著性情報およびその背後にある統計的特性を明示的に活用するマクスアップ手法「Puzzle Mix」を提案する。このアプローチは、最適な混合マスクを求める多ラベル目的関数と、顕著性に応じて割り引かれた最適輸送目的関数の間を交互に最適化する、興味深い最適化問題を導く。実験の結果、CIFAR-100、Tiny-ImageNet、ImageNetの各データセットにおいて、他のマクスアップ手法と比較して、Puzzle Mixは最先端の汎化性能および敵対的ロバスト性を達成した。ソースコードは以下のURLで公開されている:https://github.com/snu-mllab/PuzzleMix。