진폭-위상 재결합: 주파수 도메인에서 합성곱 신경망의 강건성에 대한 재고

최근 들어, 주파수 성분 분해를 활용한 설명 기법을 통해 합성곱 신경망(Convolutional Neural Networks, CNN)의 일반화 행동이 점차 명확해지고 있다. 그러나 시각 시스템의 강건성에 있어 이미지의 위상 스펙트럼(phase spectrum)의 중요성은 여전히 간과되고 있다. 본 논문에서는 CNN이 학습 이미지의 고주파 성분과 밀접하게 관련된 국소 최적해에 수렴하는 경향이 있음을 관찰하였으며, 반면 진폭 스펙트럼(amplitude spectrum)은 노이즈나 일반적인 손상(corruptions)과 같은 외부 요인에 의해 쉽게 영향을 받는다는 점을 지적한다. 반면, 더 많은 경험적 연구들은 인간이 강건한 인식을 달성하기 위해 보다 많은 위상 성분에 의존함을 보여주고 있다. 이러한 관찰은 CNN의 일반화 행동에 대해 일반적인 왜곡에 대한 강건성과 분포 외 탐지(out-of-distribution detection) 측면에서 더 깊이 있는 설명을 가능하게 하며, 현재 이미지의 위상 스펙트럼과 간섭 이미지(distracter image)의 진폭 스펙트럼을 재조합하여 데이터 증강을 설계하는 새로운 관점을 제시한다. 즉, 생성된 샘플들은 CNN이 위상 성분에서 유도되는 구조적 정보에 더 주목하도록 유도하면서도 진폭의 변동에 대해 강건성을 유지하도록 한다. 여러 이미지 데이터셋에서 수행된 실험 결과, 제안하는 방법이 일반화 및 캘리브레이션(task) 전반에서 최신 기술 대비 우수한 성능을 보였으며, 일반적인 손상 및 표면 변화에 대한 적응성, 분포 외 탐지, 그리고 적대적 공격에 대한 저항성 등 다양한 측면에서 뛰어난 성능을 입증하였다.