2달 전
ImageNet으로 훈련된 CNNs는 텍스처에 편향되어 있으며, 형태 편향을 증가시키면 정확도와 강건성이 개선됩니다.
Robert Geirhos; Patricia Rubisch; Claudio Michaelis; Matthias Bethge; Felix A. Wichmann; Wieland Brendel

초록
컨벌루션 신경망(CNNs)은 일반적으로 객체의 형태에 대한 점점 복잡해지는 표현을 학습함으로써 객체를 인식한다고 여겨져 왔습니다. 그러나 최근 일부 연구에서는 이미지 텍스처가 더 중요한 역할을 한다는 주장이 제기되었습니다. 본 연구에서는 이러한 상충되는 가설들을 정량적으로 검증하기 위해 CNNs와 인간 관찰자들이 텍스처-형태 충돌이 있는 이미지를 평가하도록 하였습니다. 우리는 ImageNet에서 학습된 CNNs가 형태보다 텍스처를 인식하는 데 강한 편향성을 보임을 입증하였습니다. 이는 인간의 행동 증거와 크게 대조되며, 근본적으로 다른 분류 전략을 드러냅니다. 그 다음으로, ImageNet에서 텍스처 기반 표현을 학습하는 표준 아키텍처(ResNet-50)가 "스타일라이즈드-ImageNet"이라는 스타일화된 ImageNet 버전에서 학습될 때 형태 기반 표현을 학습할 수 있음을 보여주었습니다. 이는 우리 실험실 환경에서 잘 조절된 심리물리학적 실험(97명의 관찰자 48,560회의 심리물리학적 시험으로 구성된 9개의 실험)에서 인간의 행동 성능과 더욱 잘 일치하며, 개선된 객체 탐지 성능과 다양한 이미지 왜곡에 대한 이전에 보지 못한 견고성 등의 예상치 못한 부수적인 이점을 동반합니다. 이러한 결과들은 형태 기반 표현의 장점을 강조합니다.