빠르고 정확한 장면 분할을 위한 양방향 정렬 네트워크

본 논문에서는 빠르고 정확한 장면 분할을 위한 효과적인 방법으로 이중 방향 정렬 네트워크(Bidirectional Alignment Network, BiAlignNet)를 제안한다. 기존에 대표적인 연구로 BiSeNet~\cite{bisenet}는 맥락 경로(Context Path)와 공간 경로(Spatial Path)라는 두 가지 서로 다른 경로를 사용하여 각각 의미 정보와 세부 정보의 균형 있는 학습을 달성하였다. 그러나 두 경로 간의 관계는 충분히 탐구되지 않았다. 우리는 두 경로가 서로 보완적인 방식으로 상호 이점을 얻을 수 있다고 주장한다. 이러한 통찰을 바탕으로, 학습된 흐름 필드를 통해 두 경로의 정보를 서로 정렬하는 새로운 네트워크를 제안한다. 노이즈와 의미적 갭을 방지하기 위해, 양방향으로 특징을 정렬하는 게이트형 흐름 정렬 모듈(Gated Flow Alignment Module)을 도입하였다. 또한 공간 경로가 더 많은 세부 정보를 학습할 수 있도록, 정렬된 학습 과정을 감독하기 위해 엣지 유도형 하드 픽셀 마이닝 손실(Edge-guided hard pixel mining loss)을 제안한다. 제안한 방법은 도시 환경 이미지 데이터셋인 Cityscapes의 검증 및 테스트 세트에서 각각 80.1%, 78.5%의 mIoU를 달성하며, 전체 해상도 입력을 기반으로 30 FPS로 실시간 실행이 가능하다. 코드와 모델은 \url{https://github.com/jojacola/BiAlignNet}에서 공개될 예정이다.