SemiVL: 시각-언어 안내를 통한 반감독 세분화

반감독형 의미 분할에서 모델은 제한된 수의 레이블이 붙은 이미지와 함께 대량의 레이블이 없는 이미지를 사용하여 높은 주석 작업 부담을 줄입니다. 기존 방법들은 좋은 분할 경계를 학습할 수 있지만, 제한된 감독 정보로 인해 시각적으로 유사한 클래스를 혼동하는 경향이 있습니다. 반면, 시각-언어 모델(VLM)은 이미지-캡션 데이터셋을 통해 다양한 의미 지식을 학습할 수 있지만, 이미지 수준의 학습 방식으로 인해 노이즈가 많은 분할 결과를 생성합니다. 본 연구에서는 VLM 사전 학습 과정에서 얻은 � богrich한 사전 지식을 반감독형 의미 분할에 통합하여 더 나은 의미 결정 경계를 학습하는 SemiVL을 제안합니다. VLM을 전역적 추론에서 국소적 추론으로 적응시키기 위해, 레이블 효율적인 학습을 위한 공간적 미세조정 전략을 도입합니다. 또한, 시각과 언어 정보를 함께 추론할 수 있도록 언어 유도형 디코더를 설계합니다. 마지막으로, 클래스 레이블 내재적 모호성을 해결하기 위해 클래스 정의 형태의 언어 안내를 모델에 제공하는 방식을 제안합니다. 우리는 SemiVL을 4개의 의미 분할 데이터셋에서 평가하였으며, 기존 반감독형 방법들에 비해 상당히 뛰어난 성능을 보였습니다. 예를 들어, COCO 데이터셋에서 232개의 레이블을 사용할 때 기존 최고 성능보다 mIoU 기준 +13.5점 향상되었으며, Pascal VOC에서는 92개의 레이블로 +6.1 mIoU 개선을 달성했습니다. 프로젝트 페이지: https://github.com/google-research/semivl