2달 전

ImageNet으로 훈련된 CNNs는 텍스처에 편향되어 있으며, 형태 편향을 증가시키면 정확도와 강건성이 개선됩니다.

Robert Geirhos; Patricia Rubisch; Claudio Michaelis; Matthias Bethge; Felix A. Wichmann; Wieland Brendel
ImageNet으로 훈련된 CNNs는 텍스처에 편향되어 있으며, 형태 편향을 증가시키면 정확도와 강건성이 개선됩니다.
초록

컨벌루션 신경망(CNNs)은 일반적으로 객체의 형태에 대한 점점 복잡해지는 표현을 학습함으로써 객체를 인식한다고 여겨져 왔습니다. 그러나 최근 일부 연구에서는 이미지 텍스처가 더 중요한 역할을 한다는 주장이 제기되었습니다. 본 연구에서는 이러한 상충되는 가설들을 정량적으로 검증하기 위해 CNNs와 인간 관찰자들이 텍스처-형태 충돌이 있는 이미지를 평가하도록 하였습니다. 우리는 ImageNet에서 학습된 CNNs가 형태보다 텍스처를 인식하는 데 강한 편향성을 보임을 입증하였습니다. 이는 인간의 행동 증거와 크게 대조되며, 근본적으로 다른 분류 전략을 드러냅니다. 그 다음으로, ImageNet에서 텍스처 기반 표현을 학습하는 표준 아키텍처(ResNet-50)가 "스타일라이즈드-ImageNet"이라는 스타일화된 ImageNet 버전에서 학습될 때 형태 기반 표현을 학습할 수 있음을 보여주었습니다. 이는 우리 실험실 환경에서 잘 조절된 심리물리학적 실험(97명의 관찰자 48,560회의 심리물리학적 시험으로 구성된 9개의 실험)에서 인간의 행동 성능과 더욱 잘 일치하며, 개선된 객체 탐지 성능과 다양한 이미지 왜곡에 대한 이전에 보지 못한 견고성 등의 예상치 못한 부수적인 이점을 동반합니다. 이러한 결과들은 형태 기반 표현의 장점을 강조합니다.

ImageNet으로 훈련된 CNNs는 텍스처에 편향되어 있으며, 형태 편향을 증가시키면 정확도와 강건성이 개선됩니다. | 최신 연구 논문 | HyperAI초신경