효율적 수용장역을 활용한 마死점 테스트

심층 신경망은 다양한 분야에서 활용되고 있지만, 그 내부 동작 방식에 대해서는 여전히 명확하지 않다. 본 연구에서는 합성곱 신경망(Convolutional Neural Networks, CNN)의 두 가지 직관에 반하는 행동을 논의한다. 첫째, 수용 영역(receptive field)의 크기를 평가하였다. 기존 연구들은 수용 영역의 크기를 증가시키거나 조절하는 데 주력해왔다. 그러나 우리는 수용 영역의 크기가 분류 정확도를 설명하지 못함을 관찰하였다. 수용 영역의 크기는 깊이 또는 커널 크기만 반영할 뿐, 폭(width)이나 카디널리티(cardinality)와 같은 다른 요인을 반영하지 않기 때문에 성능 우수성을 표현하는 데 부적절하다는 점을 지적한다. 둘째, 효과적 수용 영역(effective receptive field)을 활용하여 출력에 기여하는 픽셀을 분석하였다. 직관적으로는 각 픽셀이 최종 출력에 동등하게 기여할 것으로 기대할 수 있으나, 실제로는 출력에 거의 기여하지 않는 부분적으로 '사라진 상태'(partially dead state)에 있는 픽셀이 존재함을 발견하였다. 이러한 현상의 원인은 CNN의 아키텍처에 있음을 규명하였으며, 이 현상을 완화하기 위한 해결 방안을 논의한다. 흥미롭게도 일반적인 분류 과제에서는 이러한 '사라진 픽셀'의 존재가 CNN의 학습을 개선하는 경향이 있으나, 미세한 변동을 포착해야 하는 과제에서는 이러한 픽셀이 성능을 저하시킨다. 따라서 이러한 사라진 픽셀의 존재는 CNN의 실용적 적용 시 반드시 이해하고 고려되어야 할 중요한 요소임을 강조한다.