17日前
ビッグトランスファー(BiT):一般視覚表現学習
Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby

要約
事前学習された表現の転移は、視覚領域における深層ニューラルネットワークの学習において、サンプル効率の向上とハイパーパラメータチューニングの簡素化をもたらす。本研究では、大規模な教師ありデータセット上で事前学習を行い、ターゲットタスク上でモデルを微調整するという従来のアプローチを再検討する。事前学習のスケールを拡大し、単純な手法を組み合わせた「Big Transfer(BiT)」と呼ばれる新しいアプローチを提案する。いくつかの慎重に選定された要素を統合し、単純なヒューリスティックに基づく転移手法を採用することで、20以上のデータセットにおいて優れた性能を達成した。BiTは、クラス1つあたり1例から合計100万例までの広範なデータ量の範囲においても良好な性能を発揮する。具体的には、ILSVRC-2012ではトップ1精度87.5%、CIFAR-10では99.4%、19タスクからなるVisual Task Adaptation Benchmark(VTAB)では76.3%の精度を達成した。小規模データセットにおいても、ILSVRC-2012ではクラス1つあたり10例で76.8%、CIFAR-10では同様に10例で97.0%の精度を記録した。さらに、高精度な転移性能を実現する主要な構成要素について、詳細な分析を行った。