11日前

畳み込みニューラルネットワークにおけるテクスチャバイアスの起源と普及

Katherine L. Hermann, Ting Chen, Simon Kornblith
畳み込みニューラルネットワークにおけるテクスチャバイアスの起源と普及
要約

最近の研究では、人間とは異なり、ImageNetで訓練されたCNN(畳み込みニューラルネットワーク)は形状よりもテクスチャに基づいて画像を分類する傾向があることが示唆されている。このバイアスはどれほど広範にわたるのか、その原因は何か?本研究では、形状とテクスチャが矛盾する画像データセットでCNNを訓練した場合、形状に基づく分類をテクスチャに基づく分類と同程度に容易に学習できることを発見した。では、ImageNetで訓練されたCNNに生じるテクスチャバイアスの原因は何か?異なる非教師付き学習目的や異なるアーキテクチャは、テクスチャバイアスの程度にわずかだが有意かつ大部分独立した影響を及ぼすことが分かった。しかし、すべての学習目的とアーキテクチャにおいて、隠れ表現から形状情報が解読可能であっても、モデルは多数のケースでテクスチャに基づいた分類を実行する。一方、データ拡張の影響ははるかに大きい。訓練時により穏やかなランダムクロップを採用し、シンプルで自然な拡張法(色の歪み、ノイズ、ぼかし)を適用することで、曖昧な画像に対して形状に基づいて分類するモデルを構築でき、分布外テストセットにおいてベースラインを上回る性能を達成した。これらの結果から、人間とImageNetで訓練されたCNNが画像を処理する方法に見られる表面上の差異は、内部構造の違いに起因するのではなく、両者が見ているデータの違いに起因する可能性が高いことが示唆される。

畳み込みニューラルネットワークにおけるテクスチャバイアスの起源と普及 | 最新論文 | HyperAI超神経