
초록
우리는 합성곱 신경망 내의 Inception 모듈을 일반적인 합성곱과 깊이 분리형 합성곱(depthwise separable convolution, 깊이 분리형 합성곱과 점형 합성곱(pointwise convolution)으로 구성된 연산 사이의 중간 단계로 해석한다. 이러한 관점에서 깊이 분리형 합성곱은 최대한 많은 타워(tower)를 가진 Inception 모듈로 이해할 수 있다. 이 관찰을 바탕으로, Inception 모듈을 깊이 분리형 합성곱으로 대체한 새로운 심층 합성곱 신경망 아키텍처를 제안한다. 이 아키텍처는 Xception이라 명명되며, Inception V3가 설계된 ImageNet 데이터셋에서는 Inception V3를 약간 상회하며, 3억 5천만 장의 이미지와 1만 7천 개의 클래스를 포함하는 더 큰 이미지 분류 데이터셋에서는 Inception V3를 크게 능가한다. Xception 아키텍처는 Inception V3와 동일한 파라미터 수를 가지므로, 성능 향상은 모델의 용량 증가 때문이 아니라, 파라미터의 더 효율적인 사용에 기인한다.