
摘要
深度学习在视觉领域的成功可以归因于以下几个方面:(a) 高容量模型;(b) 计算能力的提升;以及 (c) 大规模标注数据的可用性。自2012年以来,模型的表示能力和GPU的计算能力都有了显著的进步,但最大的数据集的规模却令人惊讶地保持不变。如果我们把数据集的规模扩大10倍或100倍,会发生什么?本文旨在揭开“海量数据”与视觉深度学习之间关系的神秘面纱。通过利用包含超过3.75亿个噪声标签的JFT-300M数据集(该数据集包含3亿张图像),我们研究了如果使用这些数据进行表示学习,当前视觉任务的性能将如何变化。我们的研究得出了几个令人意外(也有一些在意料之中)的结果。首先,我们发现视觉任务的性能随着训练数据量的增长呈对数增长。其次,我们展示了表示学习(或预训练)仍然具有很大的潜力。仅仅通过训练一个更好的基础模型,就可以提高许多视觉任务的性能。最后,正如预期的那样,我们在不同的视觉任务上展示了新的最先进结果,包括图像分类、目标检测、语义分割和人体姿态估计。我们衷心希望这能激励视觉社区不要低估数据的价值,并共同努力构建更大的数据集。