
초록
최근 연구들은 인간과 달리, ImageNet으로 훈련된 CNN이 이미지를 형태보다는 질감에 기반해 분류하는 경향이 있음을 시사하고 있다. 이러한 편향은 얼마나 광범위하게 나타나는가? 또 그 원인은 무엇인가? 우리는 형태와 질감이 상충하는 이미지 데이터셋으로 훈련할 경우, CNN이 질감보다 형태에 기반해 분류하는 데 적어도 동등한 능력을 갖는다는 것을 발견했다. 그렇다면 ImageNet으로 훈련된 CNN에서 나타나는 질감 편향은 무엇에 기인하는가? 다양한 비지도 학습 목표 함수와 아키텍처는 질감 편향 수준에 미묘하지만 통계적으로 유의미하고 상당히 독립적인 영향을 미친다. 그러나 모든 목표 함수와 아키텍처를 사용해도, 그들의 은닉 표현에서 형태 정보를 복원할 수 있음에도 불구하고, 모델들은 여전히 대부분의 경우 질감 기반으로 분류 결정을 내린다. 반면, 데이터 증강 기법의 영향은 훨씬 크다. 훈련 시 더 적은 공격적인 무작위 자르기(random crops)를 사용하고, 자연스러운 단순한 증강 기법(색상 왜곡, 노이즈, 흐림)을 적용함으로써, 모델은 모호한 이미지를 대부분의 경우 형태 기반으로 분류할 수 있으며, 분포 외(out-of-distribution) 테스트 세트에서 기준 모델보다 더 뛰어난 성능을 보였다. 우리의 결과는 인간과 ImageNet으로 훈련된 CNN이 이미지를 처리하는 방식에 나타나는 외적 차이가, 내부 구조의 본질적 차이보다는 그들이 접하는 데이터의 차이에서 비롯될 수 있음을 시사한다.