
要約
潜在特徴量のモーメント(平均と標準偏差)は、画像認識モデルの学習においてノイズとして除去されることが一般的であり、これにより学習の安定性が向上し、学習時間が短縮される。しかし、画像生成の分野では、モーメントははるかに中心的な役割を果たす。これまでの研究では、インスタンス正規化や位置正規化から抽出されたモーメントが、画像のスタイルおよび形状情報を概ね捉えられることを示している。これらのモーメントは、捨てられるのではなく、生成プロセスにおいて重要な役割を担う。本論文では、認識モデルにおいてもモーメント情報を活用するよう促す、implicitなデータ拡張手法「Moment Exchange」を提案する。具体的には、ある学習画像の学習済み特徴量のモーメントを別の画像のものに置き換え、同時にターゲットラベルも補間する。これにより、モデルは正規化された特徴量に加えて、モーメント情報から学習信号を抽出するよう強制される。本手法は高速であり、特徴空間内でのみ動作し、従来の手法とは異なる信号を混合するため、既存の拡張手法と効果的に組み合わせることが可能である。複数の認識ベンチマークデータセットにおいて、本手法が高精度なベースラインネットワークの汎化性能を一貫して顕著に向上させることを実証した。