2ヶ月前

ImageNetで学習されたCNNはテクスチャに偏っている；形状バイアスを増加させることで精度と堅牢性が向上する

Robert Geirhos; Patricia Rubisch; Claudio Michaelis; Matthias Bethge; Felix A. Wichmann; Wieland Brendel

要約

畳み込みニューラルネットワーク（CNNs）は、一般的に物体形状のますます複雑な表現を学習することで物体を認識すると考えられています。しかし、最近の研究では画像テクスチャの役割がより重要であると示唆されています。本研究では、これらの対立する仮説を定量的に検証するために、CNNsと人間の観察者をテクスチャと形状が矛盾する画像で評価しました。結果として、ImageNetで訓練されたCNNsはテクスチャを認識することに強く偏っていることが明らかになりました。これは人間の行動データとは大きく異なり、根本的に異なる分類戦略を持っていることを示しています。さらに、ImageNetでテクスチャベースの表現を学習する標準的なアーキテクチャ（ResNet-50）が、「スタイライズド・イメージネット」（Stylized-ImageNet）というImageNetのスタイライズ版で訓練されると、形状ベースの表現を学習することが可能であることを示しました。この方法は、我々が厳密に制御した心理物理学的実験室環境（97人の被験者による計48,560回の心理物理学的試行を含む9つの実験）での人間の行動性能に対して大幅に適合しており、物体検出性能の向上や広範囲な画像歪みに対する未見の堅牢性などの予想外の恩恵ももたらします。これらの結果は、形状ベースの表現が持つ利点を強調しています。