2 个月前

重新审视数据在深度学习时代的不合理有效性

Chen Sun; Abhinav Shrivastava; Saurabh Singh; Abhinav Gupta

摘要

深度学习在视觉领域的成功可以归因于以下几个方面：(a) 高容量模型；(b) 计算能力的提升；以及 (c) 大规模标注数据的可用性。自2012年以来，模型的表示能力和GPU的计算能力都有了显著的进步，但最大的数据集的规模却令人惊讶地保持不变。如果我们把数据集的规模扩大10倍或100倍，会发生什么？本文旨在揭开“海量数据”与视觉深度学习之间关系的神秘面纱。通过利用包含超过3.75亿个噪声标签的JFT-300M数据集（该数据集包含3亿张图像），我们研究了如果使用这些数据进行表示学习，当前视觉任务的性能将如何变化。我们的研究得出了几个令人意外（也有一些在意料之中）的结果。首先，我们发现视觉任务的性能随着训练数据量的增长呈对数增长。其次，我们展示了表示学习（或预训练）仍然具有很大的潜力。仅仅通过训练一个更好的基础模型，就可以提高许多视觉任务的性能。最后，正如预期的那样，我们在不同的视觉任务上展示了新的最先进结果，包括图像分类、目标检测、语义分割和人体姿态估计。我们衷心希望这能激励视觉社区不要低估数据的价值，并共同努力构建更大的数据集。