
要約
我々は、教師あり学習におけるアノテーションのスケーラビリティの限界や、自己教師あり学習における計算コストのスケーラビリティの問題を抱えない、ウェブライクに教師付き表現学習(webly-supervised representation learning)の手法を提案する。既存の多数のウェブライクに教師付き表現学習の研究は、学習データに広く存在するノイズを考慮しない単純な教師あり学習アプローチを採用している一方で、ラベルノイズを扱う従来の手法は、現実世界のスケールの大きなノイズデータに対しては有効性が低い。本研究では、モーメンタムプロトタイプ(Momentum Prototypes, MoPro)と呼ばれる、シンプルな対比学習(contrastive learning)手法を提案する。MoProは、オンラインでのラベルノイズ補正、分布外サンプルの除去、および表現学習を同時に達成する。MoProは、ラベルが弱く、ノイズを含むデータセットであるWebVisionにおいて、最先端の性能を達成した。また、事前学習モデルを下流の画像分類および検出タスクに転移した場合にも、優れた性能を発揮した。VOCデータセットにおける1ショット分類では、ImageNetで教師あり学習されたモデルを+10.5点上回り、ImageNetのラベル付きサンプルの1%のみを用いて微調整した場合、最良の自己教師あり事前学習モデルを+17.3点上回った。さらに、MoProは分布シフトに対してより高いロバスト性を示した。コードおよび事前学習済みモデルは、https://github.com/salesforce/MoPro で公開されている。