
要約
視覚における深層学習の成功は、(a) 高い容量を持つモデル;(b) 計算能力の向上;および (c) 大規模なラベル付きデータの可用性に帰因されます。2012年以降、モデルの表現能力とGPUの計算能力において著しい進歩が見られましたが、最大のデータセットのサイズは意外にも一定のままです。もしデータセットのサイズを10倍または100倍に拡大したらどうなるでしょうか?本論文では、「大量データ」(enormous data)と視覚深層学習との関係をめぐる謎を解明する一歩を踏み出します。3億7500万以上のノイジーなラベルが付いた3億枚の画像から構成されるJFT-300Mデータセットを活用し、このデータを使用して表現学習を行う場合、現在の視覚タスクの性能がどのように変化するかを調査しました。本論文ではいくつか予想外(そして予想通り)の結果を得ています。第一に、訓練データ量に基づいて視覚タスクの性能が対数的に向上することを見出しました。第二に、表現学習(または事前学習)にはまだ大きな可能性があることを示しています。より優れたベースモデルを訓練することで、多くの視覚タスクでの性能改善が可能です。最後に、予想通りですが、画像分類、物体検出、セマンティックセグメンテーションおよび人間姿勢推定などの異なる視覚タスクで新しい最先端結果を提示しています。私たちは誠実な希望を持っています。それは、本研究が視覚コミュニティに対してデータの価値を見落とさないように促し、より大規模なデータセット構築に向けて共同的な努力を発展させるように励むことです。