6ヶ月前

概要

近年、混合サンプルデータ拡張（Mixed Sample Data Augmentation: MSDA）は注目を集め、MixUpやCutMixといった成功したバリエーションが多数提案されている。本研究では、元データと拡張データ上で学習された変分自己符号化器（VAE）の関数間の相互情報量を分析することで、MixUpがCutMixとは異なり、学習された関数に歪みを引き起こすことを示した。さらに、MixUpが敵対的訓練（adversarial training）の一種として機能し、DeepFoolや一様ノイズといった、MixUpによって生成される例と類似した例に対してモデルのロバスト性を向上させることを実証した。我々は、この歪みがサンプル固有の特徴をモデルが学習することを妨げ、結果として汎化性能の向上に寄与すると主張する。一方、CutMixは従来のデータ拡張と同様の働きをし、データ分布の歪みを避けつつ記憶の過剰（memorisation）を防ぐことで性能を向上させると考える。しかし、CutMixをベースに正方形に限らない任意形状のマスクを導入するMSDAが、データ分布を保持しつつ記憶の過剰をさらに抑制できる可能性があると指摘する。このような観点から、我々はFMixを提案する。FMixは、フーリエ空間からサンプリングした低周波成分に閾値処理を適用して得られるランダムなバイナリマスクを用いるMSDAであり、1次元、2次元、3次元のデータすべてに適用可能である。これらのランダムマスクは多様な形状をとることができ、訓練時間の増加なしに、多数のモデルおよびデータセット、問題設定においてMixUpおよびCutMixを上回る性能を達成した。特に、外部データを用いないCIFAR-10において、単一モデルとしての最先端性能（state-of-the-art）を達成した。最後に、MixUpのような補間型MSDAとFMixのようなマスク型MSDAとの間の本質的な違いから、両者を組み合わせることで性能をさらに向上させられることを示した。すべての実験コードは、https://github.com/ecs-vlc/FMix にて公開されている。

ソースPDF