Les origines et la prévalence du biais de texture dans les réseaux de neurones convolutionnels

Des travaux récents ont montré qu’à la différence des êtres humains, les réseaux de neurones convolutifs (CNN) entraînés sur ImageNet ont tendance à classer les images selon leur texture plutôt que selon leur forme. Cette biais est-il répandu, et d’où provient-il ? Nous constatons que, lorsqu’ils sont entraînés sur des jeux de données où forme et texture sont en conflit, les CNN apprennent à classer par forme tout aussi facilement qu’ils le font par texture. Quels facteurs expliquent alors le biais en faveur de la texture chez les CNN entraînés sur ImageNet ? Différents objectifs d’entraînement non supervisés et différentes architectures ont des effets faibles mais significatifs, largement indépendants, sur le niveau de biais en faveur de la texture. Toutefois, tous ces objectifs et architectures conduisent néanmoins à des modèles qui prennent des décisions de classification fondées sur la texture la majorité du temps, même lorsque l’information de forme est décodable à partir de leurs représentations cachées. L’effet de l’augmentation des données est beaucoup plus important. En adoptant des coupes aléatoires moins agressives lors de l’entraînement, ainsi qu’en appliquant des augmentations simples et naturelles (distorsion de couleur, bruit, flou), nous entraînons des modèles qui classent les images ambigües selon la forme la majorité du temps, tout en surpassant les modèles de référence sur des jeux de tests hors distribution. Nos résultats suggèrent que les différences apparentes dans la manière dont les humains et les CNN entraînés sur ImageNet traitent les images pourraient ne pas résulter principalement de différences dans leurs mécanismes internes, mais plutôt de différences dans les données qu’ils ont vues.