
초록
공간 풀링은 픽셀 단위 예측 작업, 예를 들어 장면 해석(scene parsing)에서 장거리 맥락 정보를 효과적으로 포착하는 데 매우 유용함이 입증되었다. 본 논문에서는 기존의 일반적으로 NxN 형태의 규칙적인 공간 풀링 구조를 넘어서, 길지만 좁은 커널, 즉 1xN 또는 Nx1 형태를 고려하는 새로운 풀링 전략인 스트립 풀링(strip pooling)을 제안함으로써 공간 풀링의 공식화를 재고한다. 스트립 풀링을 기반으로, 1) 백본 네트워크가 장거리 의존성을 효율적으로 모델링할 수 있도록 하는 새로운 스트립 풀링 모듈을 도입하고, 2) 다양한 공간 풀링을 핵심으로 하는 새로운 빌딩 블록을 제시하며, 3) 제안된 스트립 풀링과 기존 공간 풀링 기법의 성능을 체계적으로 비교함으로써 공간 풀링 아키텍처 설계를 심층적으로 탐구한다. 제안된 두 가지 새로운 풀링 기반 설계는 가벼운 구조를 가지며, 기존의 장면 해석 네트워크에 효율적인 플러그 앤 플레이 모듈로 활용할 수 있다. 대표적인 벤치마크(예: ADE20K 및 Cityscapes)에서 실시한 광범위한 실험 결과는, 본 연구에서 제안하는 간단한 접근 방식이 새로운 최고 성능(state-of-the-art)을 달성함을 입증한다. 코드는 https://github.com/Andrew-Qibin/SPNet 에 공개되어 있다.