2ヶ月前

DeiT-LT ディストイレーショングがロングテールデータセットでのビジョントランスフォーマーの学習に再び効果を発揮

Harsh Rangwani; Pradipto Mondal; Mayank Mishra; Ashish Ramayee Asokan; R. Venkatesh Babu
DeiT-LT ディストイレーショングがロングテールデータセットでのビジョントランスフォーマーの学習に再び効果を発揮
要約

Vision Transformer (ViT) は、さまざまなコンピュータビジョンタスクにおいて注目されるアーキテクチャとして登場しました。ViTでは、入力画像をパッチトークンに分割し、それらを自己注意ブロックのスタックを通じて処理します。しかし、Convolutional Neural Networks (CNN) とは異なり、ViTの単純なアーキテクチャには情報的な帰納バイアス(例:局所性など)が存在しません。このため、ViTは大量のデータを必要とし、事前学習を行う必要があります。さまざまなデータ効率的な手法(DeiT)が提案され、バランスの取れたデータセットでのViTの効果的な学習が可能になりました。しかし、長尾分布を持つデータセットでのViTの使用に関する文献は限られています。本研究では、長尾分布を持つデータセットからゼロからViTを学習する問題に対処するために DeiT-LT を導入します。DeiT-LTでは、非分布内画像を使用し、蒸留損失を再加重することで尾クラスへの焦点を強化する方法でCNNからの効率的かつ効果的な蒸留を行います。これにより、初期のViTブロックで局所的なCNNのような特徴量が学習され、尾クラスの汎化性能が向上します。さらに、過学習を軽減するために、平坦なCNN教師モデルからの蒸留を提案します。これにより、すべてのViTブロックにおけるDISTトークンに対して低ランクで汎化可能な特徴量が学習されます。提案されたDeiT-LTスキームにより、蒸留DISTトークンは尾クラスの専門家となり、分類器CLSトークンはヘッドクラスの専門家となります。これらの専門家は同じViTアーキテクチャ内で異なるトークン集合を使用して多数クラスと少数クラスに対応する特徴量を効果的に学習することに貢献します。私たちはDeiT-LTが小規模なCIFAR-10 LTから大規模なiNaturalist-2018までの一連のデータセット上でゼロからViTを学習する際の有効性を示しています。