
要約
我々は、非教師あり視覚表現学習のための「モーメントコントラスト(Momentum Contrast: MoCo)」を提案する。対照学習を辞書検索の観点から捉え、キューと移動平均エンコーダを用いた動的辞書を構築することで、リアルタイムに大規模かつ一貫性のある辞書を構築可能となる。これにより、対照的な非教師あり学習が効果的に実現される。MoCoはImageNet分類において一般的な線形プロトコル下で競争力のある結果を達成している。さらに重要な点として、MoCoによって学習された表現は、下流タスクへの転移性能が優れている。PASCAL VOC、COCOおよびその他のデータセットにおける7つの検出・セグメンテーションタスクにおいて、MoCoは教師あり事前学習を用いた手法を上回り、場合によっては顕著な差をつけて優位に立つ。これは、多くの視覚タスクにおいて、非教師あり学習と教師あり学習の間の性能ギャップが大きく縮小されたことを示唆している。