2 个月前
训练于ImageNet的CNN偏向纹理;增加形状偏差可提高准确性和鲁棒性
Robert Geirhos; Patricia Rubisch; Claudio Michaelis; Matthias Bethge; Felix A. Wichmann; Wieland Brendel

摘要
卷积神经网络(CNNs)通常被认为通过学习越来越复杂的物体形状表示来识别物体。然而,一些最近的研究表明图像纹理可能起着更重要的作用。本文通过评估在纹理-形状线索冲突图像上训练的CNNs和人类观察者的表现,对这些相互矛盾的假设进行了定量测试。研究结果表明,基于ImageNet训练的CNNs强烈偏向于识别纹理而非形状,这与人类行为证据形成鲜明对比,揭示了两者在分类策略上的根本差异。随后,我们展示了当使用“风格化ImageNet”(Stylized-ImageNet)这一经过风格化的ImageNet版本进行训练时,同一标准架构(ResNet-50)能够从基于纹理的表示转向基于形状的表示。在我们严格控制的心理物理实验室环境中(共进行了九项实验,总计48,560次心理物理试验,涉及97名观察者),这种基于形状的表示与人类行为表现更加吻合,并且带来了许多意想不到的好处,例如提高了目标检测性能以及对广泛图像失真的前所未有的鲁棒性,突显了基于形状表示的优势。