
摘要
随着大规模标注数据集和高容量模型的出现,机器视觉系统的性能得到了迅速提升。然而,该技术仍存在重大局限,首先表现在不同的视觉问题仍然需要由不同的模型来解决,这些模型要么从头开始训练,要么在目标数据上进行微调。相比之下,人类视觉系统在个体早期生活中就能学习到一种通用的视觉表示。这种表示能够很好地应对各种各样的视觉问题,几乎不需要或只需要很少的修改,并且其主要优势在于解决这些问题时所需训练数据量极少。本文探讨了神经网络是否可以作为通用表示,并通过研究它们在处理大量视觉问题组合时的能力来验证这一点。我们展示了单个神经网络可以同时学习多个非常不同的视觉领域(从素描到浮游生物和MNIST数字),其表现与多个专门化的网络相当甚至更好。然而,我们也发现这需要仔细对网络中的信息进行归一化处理,具体方法包括使用特定领域的缩放因子或更通用地使用实例归一化层(Instance Normalization Layer)。