
초록
최근 들어 오픈-보라지티(Open-Vocabulary) 의미 분할 문제에 대한 관심이 점점 커지고 있으며, 최고의 성능을 기록하는 방법들은 두 가지 스트림을 갖춘 네트워크를 기반으로 하고 있다. 하나의 스트림은 제안 마스크를 생성하고, 다른 하나는 사전 훈련된 시각-언어 모델을 사용하여 분류를 수행한다. 그러나 기존의 두 스트림 기반 방법들은 시각-언어 모델에 최대 100개에 이르는 이미지 컷(이미지 조각)을 전달해야 하는 등 매우 비효율적인 구조를 가지고 있다. 이 문제를 해결하기 위해, 우리는 입력 이미지당 시각-언어 모델을 단 한 번만 통과시키면 되는 새로운 네트워크를 제안한다. 구체적으로, 사전 훈련된 시각 인코더 내에서 패치 임베딩 간의 해로운 간섭을 제한하기 위해 새로운 네트워크 적응 기법인 '패치 세버런스(Patch Severance)'를 제안한다. 또한 분류 성능을 향상시키기 위해 공간적으로 더 구분력 있는 특징에 주목하도록 유도하는 '분류 앵커 학습(Classification Anchor Learning)' 기법을 제안한다. 광범위한 실험을 통해 제안한 방법이 기존 최고 성능 기법을 능가하는 동시에 추론 속도에서 4배에서 7배 빠르다는 것이 입증되었다. 코드: https://github.com/CongHan0808/DeOP.git