
摘要
近年来,人们对学习适用于多种不同类型问题和数据的数据表示的兴趣日益浓厚。本文特别关注学习一种单一的视觉表示,该表示可以成功应用于从犬种到停车标志和数字等非常不同的图像类型的分析中。受到近期关于学习预测另一网络参数的网络工作的启发,我们开发了一种可调的深度网络架构,通过适配器残差模块(adapter residual modules),该架构能够在运行时动态调整以适应多样化的视觉领域。我们的方法在保持甚至提高特定领域表示准确性的同时,实现了高度的参数共享。此外,我们还引入了视觉十项挑战(Visual Decathlon Challenge),这是一个基准测试,用于评估表示同时捕捉十个非常不同视觉领域的能力,并衡量其在各个领域的均匀识别性能。