사이드 어댑터 네트워크를 통한 오픈-보라지티 세그멘테이션

이 논문은 사전 훈련된 시각-언어 모델을 활용한 오픈-보이드(Open-Vocabulary) 의미 분할을 위한 새로운 프레임워크인 사이드 어댑터 네트워크(Side Adapter Network, SAN)를 제안한다. 제안하는 방법은 의미 분할 작업을 영역 인식 문제로 모델링한다. 고정된 CLIP 모델에 두 가지 분기(branch)를 갖는 사이드 네트워크를 연결한다: 하나는 마스크 제안(masks proposal)을 예측하고, 다른 하나는 CLIP 모델 내에서 마스크의 클래스를 인식하기 위해 사용되는 주의 편향(attention bias)을 예측한다. 이 분리된 설계는 CLIP 모델이 마스크 제안의 클래스를 인식하는 데 유리한 효과를 제공한다. 또한, 부가된 사이드 네트워크는 CLIP의 특징을 재사용할 수 있으므로 매우 가벼운 구조가 가능하다. 더불어 전체 네트워크는 엔드 투 엔드(end-to-end)로 훈련될 수 있어, 사이드 네트워크가 고정된 CLIP 모델에 적응할 수 있으며, 이로 인해 예측된 마스크 제안이 CLIP 인식 능력을 반영하게 된다. 제안하는 방법은 빠르고 정확하며, 추가로 훈련 가능한 파라미터가 몇 개에 불과하다. 우리는 다양한 의미 분할 벤치마크에서 제안 방법을 평가하였으며, 기존 대비 최대 18배 적은 훈련 가능한 파라미터와 최대 19배 빠른 추론 속도로 상당한 성능 향상을 보였다. 본 연구가 오픈-보이드 의미 분할 분야의 견고한 기준(baseline)이 되어 향후 연구의 발전에 기여하기를 기대한다. 코드는 https://github.com/MendelXu/SAN 에 공개될 예정이다.