16日前
AlignMixup:対応する特徴量の補間により表現能力を向上させる
Shashanka Venkataramanan, Ewa Kijak, Laurent Amsaleg, Yannis Avrithis

要約
Mixupは、入力空間または特徴空間において2つ以上のサンプル間、および対応するターゲットラベル間で補間を行う強力なデータ拡張手法である。近年の多くのMixup手法は、2つ以上のオブジェクトを1枚の画像に切り取り貼り付ける形で処理するものが多く、これは補間よりも効率的な処理に焦点を当てている。しかしながら、画像間の最適な補間方法についてはまだ明確に定義されていない。この観点から、Mixupは自己符号化器(autoencoder)と関連付けられている。なぜなら、自己符号化器はしばしば「良好な補間」を行うため、たとえば一つの画像が連続的に別の画像へと変形するような画像を生成することができるからである。本研究では、補間という視点からMixupを再検討し、特徴空間において2枚の画像を幾何学的に整合させる手法であるAlignMixを提案する。この対応関係により、2つの特徴セットの間で補間を行うことができる一方で、一方の特徴セットの位置を維持することができる。興味深いことに、このアプローチは、Mixupが一方の画像の幾何構造またはポーズをほとんど保持しつつ、他方の画像のテクスチャを反映するという状況を生み出す。これはスタイル転送(style transfer)と強い関連性を持つ。さらに、我々は自己符号化器が、分類器が復元された画像を一度も見ることなく、Mixup下でも表現学習を改善できることを示している。実験の結果、AlignMixは5つの異なるベンチマークにおいて、最先端のMixup手法を上回る性能を達成した。