
摘要
近期研究指出,与人类不同,经过ImageNet训练的卷积神经网络(CNN)倾向于依据纹理而非形状对图像进行分类。这种偏倚究竟有多普遍?其根源又是什么?我们发现,当在形状与纹理存在冲突的图像数据集上进行训练时,CNN能够以与依赖纹理相当甚至更易的方式学习基于形状进行分类。那么,为何在ImageNet上训练的CNN仍表现出显著的纹理偏倚?不同的无监督训练目标以及不同的网络架构对纹理偏倚程度均产生微小但显著且 largely 独立的影响。然而,无论采用何种训练目标或架构,所训练出的模型在多数情况下仍会做出基于纹理的分类决策,即使其隐藏层表征中仍可解码出形状信息。相比之下,数据增强策略的影响则更为显著。通过在训练过程中采用较不激进的随机裁剪方式,并引入简单而自然的增强手段(如颜色失真、噪声添加和模糊处理),我们训练出的模型能够多数情况下依据形状对模糊图像进行分类,且在分布外测试集上的表现优于基线模型。我们的研究结果表明,人类与ImageNet训练的CNN在图像处理方式上的表观差异,可能并非主要源于二者内部工作机制的根本不同,而更可能是由于其所接触的数据存在差异所致。