SED: 오픈-보이어티 의미 분할을 위한 간단한 인코더-디코더

오픈-보라티지 세밀 분할(Open-vocabulary semantic segmentation)은 열린 카테고리 집합에서 픽셀을 서로 다른 의미적 그룹으로 구분하는 것을 목표로 한다. 기존 대부분의 방법들은 사전 훈련된 시각-언어 모델을 활용하는 방식을 탐색해 왔으며, 핵심은 이미지 수준의 모델을 픽셀 수준의 분할 작업에 적용하는 것이다. 본 논문에서는 오픈-보라티지 세밀 분할을 위한 간단한 인코더-디코더 구조인 SED(Selective Encoder-Decoder)를 제안한다. SED는 계층적 인코더 기반의 비용 맵 생성과 카테고리 조기 거부(early rejection)를 갖춘 점진적 융합 디코더로 구성된다. 계층적 인코더 기반 비용 맵 생성은 단순한 트랜스포머 대신 계층적 백본(hierarchical backbone)을 사용하여 픽셀 수준의 이미지-텍스트 비용 맵을 예측한다. 단순한 트랜스포머에 비해 계층적 백본은 국소적 공간 정보를 더 잘 포착할 수 있으며, 입력 크기에 대해 선형 시간 복잡도를 가지는 장점이 있다. 제안된 점진적 융합 디코더는 상향식(top-down) 구조를 활용하여 다양한 백본 레벨의 특징 맵과 비용 맵을 융합하여 분할을 수행한다. 추론 속도를 향상시키기 위해 디코더 내부에 카테고리 조기 거부 기법을 도입하여 디코더의 초기 레이어에서 존재하지 않는 카테고리를 사전에 제거함으로써 최대 4.7배의 가속 효과를 달성하면서 정확도 저하 없이 성능을 유지한다. 다양한 오픈-보라티지 세밀 분할 데이터셋을 대상으로 수행된 실험을 통해 본 SED 방법의 효과성을 입증하였다. ConvNeXt-B 기반으로 ADE20K 데이터셋(150개 카테고리)에서 1장당 82밀리초(ms)의 속도로 mIoU 점수 31.6%를 달성하였다. 코드는 \url{https://github.com/xb534/SED.git}에서 공개할 예정이다.