2달 전
실시간 의미 분할을 위한 BiSeNet 재고려
Fan, Mingyuan ; Lai, Shenqi ; Huang, Junshi ; Wei, Xiaoming ; Chai, Zhenhua ; Luo, Junfeng ; Wei, Xiaolin

초록
BiSeNet은 실시간 세그멘테이션을 위한 두 개의 스트림 네트워크로 인기가 높아졌습니다. 그러나 공간 정보를 부호화하기 위해 추가 경로를 도입하는 원칙은 시간이 오래 걸리며, 이미지 분류와 같은 사전 학습된 작업에서 가져온 백본들이 작업 특화 설계의 부족으로 인해 이미지 세그멘테이션에 비효율적일 수 있습니다. 이러한 문제들을 해결하기 위해, 우리는 구조적인 중복성을 제거하여 새로운 효율적인 구조인 단기 밀집 연결 네트워크(Short-Term Dense Concatenate network, STDC 네트워크)를 제안합니다. 구체적으로, 우리는 피처 맵의 차원을 점진적으로 줄이고 이를 통합하여 이미지를 표현하는데 사용하며, 이는 STDC 네트워크의 기본 모듈을 형성합니다. 디코더에서는 단일 스트림 방식으로 저수준 계층에서 공간 정보 학습을 통합한 Detail Aggregation 모듈을 제안합니다. 마지막으로, 저수준 피처와 깊은 피처를 융합하여 최종 세그멘테이션 결과를 예측합니다. Cityscapes 및 CamVid 데이터셋에 대한 광범위한 실험들은 우리의 방법이 세그멘테이션 정확도와 추론 속도 사이에서 유망한 균형을 달성함으로써 그 효과성을 입증하였습니다. Cityscapes에서 NVIDIA GTX 1080Ti 상에서 250.4 FPS의 속도로 테스트 셋에서 71.9% mIoU를 달성하였으며, 이는 최신 방법들보다 45.2% 더 빠르며, 고해상도 이미지 추론 시 97.0 FPS로 76.8% mIoU를 달성하였습니다.