17日前
弱教師付き事前学習における視覚認識モデルの再検討
Mannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan, Ross Girshick, Piotr Dollár, Laurens van der Maaten

要約
モデルの事前学習は、現代の視覚認識システムの基盤をなすものである。ImageNetのようなデータセット上で完全に教師ありで事前学習を行う方法は、依然として業界標準であるが、最近の研究では、大規模な弱教師あり事前学習が、完全教師ありアプローチを上回る可能性があることが示唆されている。本論文では、現代版の残差ネットワーク(residual networks)と、これまでで最大規模の画像および対応するハッシュタグデータセットを用いて、ハッシュタグによる弱教師あり事前学習を再検討する。得られたモデルの性能を、ゼロショット転移を含む多様な転移学習設定において評価した。また、大規模な自己教師あり学習で得られたモデルと比較した。その結果、我々の弱教師ありモデルはすべての設定において非常に競争力があり、自己教師ありモデルを大幅に上回ることが明らかになった。さらに、モデルが懸念されるような偏見やステレオタイプ的な関連性を学習していないかについても検証を行った。全体として、本研究の結果は、視覚認識システムの開発において弱教師あり学習を活用する意義を強く示唆している。本研究で開発したモデル「Supervised Weakly through hashtAGs(SWAG)」は、公開されている。