주목력 유도형 체인 형태의 컨텍스트 집약을 통한 의미 분할

전체 컨볼루션 네트워크에서 특징이 전파되는 방식은 다중 스케일의 맥락을 포착하여 정밀한 세그멘테이션 마스크를 얻는 데 있어 매우 중요한 요소이다. 본 논문에서는 특징 전파를 다양화하기 위해 시리즈-병렬 하이브리드 패러다임인 사슬형 맥락 집약 모듈(Chained Context Aggregation Module, CAM)을 제안한다. CAM은 사슬 구조로 연결된 라더형 정보 흐름을 통해 다양한 공간적 스케일의 특징을 획득하고, 사전 융합(pre-fusion)과 재융합(re-fusion)이라는 두 단계 과정을 통해 이를 융합한다. 시리즈 흐름은 출력 뉴런의 수용 영역을 지속적으로 확대하는 반면, 병렬 흐름은 서로 다른 영역 기반 맥락을 인코딩한다. 각 정보 흐름은 적절한 다운샘플링 스케일을 갖춘 얕은 인코더-디코더 구조로 구성되어, 맥락 정보를 충분히 포착할 수 있다. 또한 CAM에서는 특징 재융합을 안내하기 위해 주의(attention) 모델을 도입한다. 이러한 기술적 발전을 바탕으로, 예측 맵의 정밀한 공간적 세부 정보를 복원하기 위해 비대칭 디코더를 활용하는 사슬형 맥락 집약 네트워크(Chained Context Aggregation Network, CANet)를 구축하였다. 본 연구는 Pascal VOC 2012, Pascal Context, Cityscapes, CamVid, SUN-RGBD, GATECH 등 총 6개의 도전적인 데이터셋에서 광범위한 실험을 수행하였으며, 실험 결과 CANet이 최첨단 성능을 달성함을 입증하였다.