S$^2$-FPN: 실시간 세분할을 위한 척도 가중 스트립 주의 유도 특징 피라미드 네트워크

현대의 고성능 의미론적 세그멘테이션 방법은 관련 특징을 추출하기 위해 무거운 백본과 확장된 컨볼루션(디레이티드 컨볼루션)을 활용한다. 비록 맥락 정보와 의미 정보를 동시에 갖춘 특징을 추출하는 것은 세그멘테이션 작업에 있어 핵심적인 요소이지만, 이는 실시간 응용 프로그램에서 메모리 사용량과 높은 계산 비용을 초래한다. 본 논문에서는 실시간 도로 환경 의미론적 세그멘테이션에서 정확도와 속도 간의 균형을 달성하기 위한 새로운 모델을 제안한다. 구체적으로, 스케일 인지(strip attention) 기반의 스트립 주의 메커니즘을 활용한 경량 모델인 Scale-aware Strip Attention Guided Feature Pyramid Network(S$^2$-FPN)을 제안한다. 본 네트워크는 세 가지 주요 모듈로 구성된다: 주의 기반 피라미드 융합(APF) 모듈, 스케일 인지 스트립 주의 모듈(SSAM), 그리고 전역 특징 업샘플링(GFU) 모듈. APF 모듈은 주의 메커니즘을 도입하여 구분력 있는 다중 스케일 특징을 학습하고, 서로 다른 레벨 간의 의미적 차이를 줄이는 데 기여한다. APF는 수직 스트립 연산을 통해 스케일 인지 주의를 활용하여 전역 맥락을 인코딩하고 장거리 의존성을 모델링함으로써, 유사한 의미 레이블을 가진 픽셀 간의 관계를 강화한다. 또한, 채널별 재가중 블록(CRB)을 도입하여 중요한 채널 특징을 강조한다. 마지막으로, S$^2$-FPN의 디코더는 APF와 인코더에서 나온 특징을 융합하는 GFU 모듈을 사용한다. 제안된 방법은 두 가지 도전적인 의미론적 세그멘테이션 벤치마크에서 광범위한 실험을 수행하였으며, 다양한 모델 설정에서 더 우수한 정확도/속도 균형을 달성함을 입증하였다. 제안된 모델은 Cityscapes 데이터셋에서 각각 76.2% mIoU/87.3FPS, 77.4% mIoU/67FPS, 77.8% mIoU/30.5FPS의 성능을 기록하였으며, Camvid 데이터셋에서는 각각 69.6% mIoU, 71.0% mIoU, 74.2% mIoU의 성능을 달성하였다. 본 연구의 코드는 \url{https://github.com/mohamedac29/S2-FPN}에서 공개될 예정이다.