11日前

大規模自己教師モデルは強力な準教師あり学習者である

Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton

要約

ラベル付き例が少数である状況下で、大量のラベルなしデータを効果的に活用するための代表的なアプローチとして、無監督事前学習 followed by 監督的微調整（fine-tuning）という手法がある。このアプローチは、タスクに依存しない形でラベルなしデータを活用するが、コンピュータビジョン分野における従来の半教師あり学習のアプローチとは対照的に、ImageNetにおける半教師あり学習において驚くほど高い効果を発揮することを示した。本手法の鍵となる要素は、事前学習および微調整の段階で大規模（深く広い）なネットワークを用いることである。我々の調査から、ラベル付きデータが少ないほど、このアプローチ（ラベルなしデータのタスクに依存しない利用）が大規模なネットワークによってより大きな恩恵を受けることが明らかになった。微調整の後、タスク固有の方法でラベルなしデータを再利用することにより、大規模なネットワークをさらに改善し、大幅に小型化されたネットワークに知識を蒸留（distillation）することができ、分類精度の低下はほとんどない。提案する半教師あり学習アルゴリズムは以下の3段階で要約できる：（1）SimCLRv2を用いた大規模ResNetモデルの無監督事前学習、（2）少数のラベル付きデータを用いた監督的微調整、（3）ラベルなしデータを用いた蒸留によるタスク固有知識の精緻化と転移。この手順により、ResNet-50を用いてラベルデータのわずか1％（クラスあたり13枚未満）でImageNetのトップ1精度73.9％を達成した。これは、従来の最先端手法と比べてラベル効率が10倍向上した。また、ラベルデータの10％を使用した場合、本手法で学習されたResNet-50はトップ1精度77.5％を達成し、すべてのラベルを用いた従来の監督学習よりも優れた性能を示した。