MixPro: マスクミックスと進行的注意ラベリングを用いたビジョントランスフォーマーのデータ拡張

最近提案されたデータ拡張手法であるTransMixは、アテンションラベルを使用して視覚トランスフォーマー(ViT)の堅牢性と性能を向上させることが期待されています。しかし、TransMixには以下の2つの問題点があります:1) TransMixの画像クロッピング方法がViTに適していない可能性がある。2) 訓練初期段階でモデルが信頼性の低いアテンションマップを生成する。TransMixは、信頼性の低いアテンションマップを使用して混合アテンションラベルを計算し、これによりモデルに影響を与える可能性があります。これらの問題に対処するために、我々は画像空間とラベル空間それぞれに対してMaskMixとProgressive Attention Labeling (PAL)を提案します。具体的には、画像空間の観点から、パッチのようなグリッドマスクに基づいて2つの画像を混合するMaskMixを設計しました。特に、各マスクパッチのサイズは調整可能であり、画像パッチサイズの倍数となっています。これにより、各画像パッチが1つの画像からのみ由来し、より大域的な情報が含まれることが保証されます。一方、ラベル空間の観点から、PALは進行因子を使用して混合アテンションラベルのアテンションウェイトを動的に再重み付けします。最終的に、我々はMaskMixとProgressive Attention Labelingを組み合わせて新しいデータ拡張手法としてMixProを開発しました。実験結果によると、本手法はImageNet分類においてさまざまなViTベースモデルの性能向上に寄与することが示されました(DeiT-Tで300エポック訓練した場合のトップ-1精度73.8%)。また、ImageNetでMixProによる事前学習を行った後でも、ViTベースモデルはセマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへの転移能力も向上しています。さらに、TransMixと比較してMixProはいくつかのベンチマークでより高い堅牢性を示しています。コードは https://github.com/fistyee/MixPro で公開されています。