
要約
Mixupは、訓練データ点とラベルを凸結合によって新たな例を生成するデータ拡張技術である。この単純な手法は、さまざまな設定や応用において、多くの最先端モデルの精度向上を経験的に示しているが、その成功の背後にある理由は依然として十分に理解されていない。本論文では、Mixupの理論的基盤を大きく前進させるために、その正則化効果を明確に解明する。我々は、Mixupが、データ変換と変換後のデータに対するランダムな摂動を組み合わせた制約のもとでの標準的な経験的リスク最小化推定器として解釈できることを示す。この新たな解釈から、二つの核心的な知見を得た。第一に、データ変換の観点から、テスト時にもMixupで学習したモデルは変換されたデータに適用すべきであることが示唆される。この変更はコード上で一文の修正で実現可能であり、我々は実証的に、精度および予測のキャリブレーションの両方を向上させることを確認した。第二に、本研究で提示するMixupの新たな解釈に基づき、ランダムな摂動が既存の複数の正則化スキーム(ラベルスムージング、推定器のリプシッツ定数の低減など)を誘発することを示した。これらのスキームは相乗的に作用し、過適合および過信された予測を防ぐ自己キャリブレーション型で効果的な正則化効果をもたらす。本研究の理論的分析を裏付ける実験を通じて、これらの結論の妥当性を確認した。