개방형 어휘 세그멘테이션을 위한 의미 정보 기반 캘리브레이션

이 논문은 CLIP의 일반화된 문맥적 사전 지식을 활용하여 사전 내 임베딩 공간과 도메인 편향된 임베딩 공간을 보정함으로써 오픈-보이어티 세그멘테이션(Open-Vocabulary Segmentation, OVS)을 탐구한다. 오픈-보이어티 이해의 핵심은 무제한 텍스트의 의미와 시각적 콘텐츠 간의 정렬인데, 이는 현재 이 분야의 주요 한계로 작용하고 있다. 이러한 도전에 대응하기 위해 최근 연구들은 CLIP을 추가 분류기로 활용하고, 모델 예측을 CLIP 분류 결과와 통합하는 접근법을 제안해 왔다. 비록 이러한 방법들이 놀라운 진전을 이루었지만, 감독 학습 기반 접근법과 비교했을 때 OVS 방법의 실제 적용 상황에서의 성능은 여전히 만족스럽지 못하다. 이는 사전 내 임베딩과 도메인 편향된 CLIP 예측에 기인한다고 본다. 이를 해결하기 위해 우리는 ‘의미 기반 보정 네트워크(Semantic-assisted CAlibration Network, SCAN)’를 제안한다. SCAN에서는 제안된 임베딩에 CLIP의 일반화된 의미 사전 지식을 통합함으로써 기존 카테고리에 국한된 붕괴 현상을 방지한다. 또한, 전역적 문맥의 부족과 자연스럽지 않은 배경 노이즈를 완화하기 위해 문맥 이동 전략(Contextual Shift Strategy)을 도입한다. 이러한 설계를 통해 SCAN은 모든 주요 오픈-보이어티 세그멘테이션 벤치마크에서 최신 기준(SOTA) 성능을 달성한다. 더불어, 기존 평가 시스템이 카테고리 간 의미 중복을 무시한다는 문제점을 지적하고, 이를 보완하기 위한 새로운 지표인 의미 지도 IoU(Semantic-Guided IoU, SG-IoU)를 제안한다.