HyperAIHyperAI

Command Palette

Search for a command to run...

ImageNetで学習されたCNNはテクスチャに偏っている;形状バイアスを増加させることで精度と堅牢性が向上する

Robert Geirhos Claudio Michaelis Felix A. Wichmann* Patricia Rubisch Matthias Bethge* Wieland Brendel*

概要

畳み込みニューラルネットワーク(CNNs)は、一般的に物体形状のますます複雑な表現を学習することで物体を認識すると考えられています。しかし、最近の研究では画像テクスチャの役割がより重要であると示唆されています。本研究では、これらの対立する仮説を定量的に検証するために、CNNsと人間の観察者をテクスチャと形状が矛盾する画像で評価しました。結果として、ImageNetで訓練されたCNNsはテクスチャを認識することに強く偏っていることが明らかになりました。これは人間の行動データとは大きく異なり、根本的に異なる分類戦略を持っていることを示しています。さらに、ImageNetでテクスチャベースの表現を学習する標準的なアーキテクチャ(ResNet-50)が、「スタイライズド・イメージネット」(Stylized-ImageNet)というImageNetのスタイライズ版で訓練されると、形状ベースの表現を学習することが可能であることを示しました。この方法は、我々が厳密に制御した心理物理学的実験室環境(97人の被験者による計48,560回の心理物理学的試行を含む9つの実験)での人間の行動性能に対して大幅に適合しており、物体検出性能の向上や広範囲な画像歪みに対する未見の堅牢性などの予想外の恩恵ももたらします。これらの結果は、形状ベースの表現が持つ利点を強調しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています