17日前
野生における視覚特徴の自己教師付き事前学習
Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, Piotr Bojanowski

要約
最近、MoCo、SimCLR、BYOL、SwAVなどの自己教師学習手法により、教師あり学習手法との差は著しく縮小された。これらの成果は、非常に厳密に整備されたImageNetデータセットという制御された環境下で得られたものである。しかし、自己教師学習の前提条件は、任意のランダムな画像や無制限のデータセットから学習可能であるということである。本研究では、教師なしの状態で、ランダムかつ非整備された画像(10億枚)を用いて大規模モデルを学習することにより、自己教師学習がその期待に応えうるかを検証した。その結果得られた最終モデル、Self-supERvised(SEER)モデルは、13億パラメータを持つRegNetYを512台のGPUで10億枚のランダム画像にわたって学習させ、トップ1精度84.2%を達成した。これは、最も優れた自己教師学習事前学習モデルを1%上回り、自己教師学習が現実世界の設定でも有効であることを裏付けている。さらに興味深いことに、自己教師学習モデルは少量の学習データ(ImageNetの10%)でも優れた少データ学習能力を示し、トップ1精度77.9%を達成した。コード:https://github.com/facebookresearch/vissl