HyperAIHyperAI
il y a 2 mois

Les CNNs formés sur ImageNet sont biaisés en faveur des textures ; augmenter le biais en faveur de la forme améliore la précision et la robustesse.

Robert Geirhos; Patricia Rubisch; Claudio Michaelis; Matthias Bethge; Felix A. Wichmann; Wieland Brendel
Les CNNs formés sur ImageNet sont biaisés en faveur des textures ; augmenter le biais en faveur de la forme améliore la précision et la robustesse.
Résumé

Les Réseaux Neuronaux Convolutifs (CNNs) sont généralement considérés comme reconnaissant les objets en apprenant des représentations de plus en plus complexes des formes d'objets. Cependant, certaines études récentes suggèrent un rôle plus important des textures d'image. Nous mettons ici ces hypothèses contradictoires à l'épreuve quantitative en évaluant les CNNs et les observateurs humains sur des images présentant un conflit entre les indices texturaux et de forme. Nous montrons que les CNNs entraînés sur ImageNet sont fortement biaisés vers la reconnaissance des textures plutôt que des formes, ce qui contraste nettement avec les preuves comportementales humaines et révèle des stratégies de classification fondamentalement différentes. Nous démontrons ensuite que la même architecture standard (ResNet-50) qui apprend une représentation basée sur la texture sur ImageNet est capable d'apprendre une représentation basée sur la forme lorsqu'elle est entraînée sur « Stylized-ImageNet », une version stylisée d'ImageNet. Cela fournit une meilleure correspondance avec les performances comportementales humaines dans notre cadre expérimental bien contrôlé (neuf expériences totalisant 48 560 essais psychophysiques auprès de 97 observateurs) et est accompagné de nombreux avantages émergents inattendus, tels qu'une amélioration des performances de détection d'objets et une robustesse inédite face à une large gamme de distorsions d'image, soulignant ainsi les avantages d'une représentation basée sur la forme.