3ヶ月前
ラベル効率学習のためのマスク付きシアンプスネットワーク
Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas

要約
我々は、画像表現を学習するための自己教師学習フレームワークとして、マスク付きシアンプスネットワーク(Masked Siamese Networks: MSN)を提案する。本手法は、ランダムにマスクされたパッチを含む画像ビューの表現を、元のマスクなし画像の表現と一致させるものである。この自己教師学習の事前学習戦略は、ビジョントランスフォーマー(Vision Transformers)に適用される際、特にスケーラビリティに優れる。なぜなら、ネットワークが処理するのはマスクされていないパッチのみであるためである。その結果、MSNは統合埋め込みアーキテクチャのスケーラビリティを向上させるとともに、低ショット画像分類タスクにおいて競争力のある高い意味的レベルの表現を生成する。例えば、ImageNet-1Kにおいて、わずか5,000枚のラベル付き画像を用いた場合、ベースラインのMSNモデルはトップ1精度72.4%を達成し、ImageNet-1Kのラベルの1%のみを使用した場合でも75.7%のトップ1精度を達成した。これは、このベンチマークにおける自己教師学習の新たな最良成績を樹立した。本研究のコードは公開されている。