제로샷 세그멘테이션을 위한 마스크 인지 CLIP 표현 학습

최근 들어, 사전 훈련된 시각-언어 모델은 도전적인 제로샷 분할(Zero-shot Segmentation) 작업에 점점 더 널리 활용되고 있다. 전형적인 해결 방법은 먼저 마스크 후보를 생성한 다음, CLIP을 사용해 이를 분류하는 방식을 따르고 있다. CLIP의 제로샷 전이 능력을 유지하기 위해 기존의 접근 방식은 훈련 중에 CLIP의 가중치를 고정하는 것을 선호해왔다. 그러나 본 논문에서는 CLIP이 다양한 마스크 후보에 대해 민감하지 않으며, 동일한 이미지에 대한 다양한 마스크 후보에 대해 유사한 예측을 생성하는 경향이 있음을 밝혀냈다. 이러한 민감도 부족은 마스크 후보 분류 시 다수의 오류 긍정(false positives)을 초래한다. 이 문제는 주로 CLIP가 이미지 수준의 레이블을 기반으로 훈련되었기 때문에 발생한다. 이 문제를 완화하기 위해 우리는 간단하면서도 효과적인 방법인 마스크 인지 미세조정(Mask-aware Fine-tuning, MAFT)을 제안한다. 구체적으로, 임의의 수의 이미지와 마스크 후보를 동시에 처리할 수 있도록 Image-Proposals CLIP 인코더(IP-CLIP 인코더)를 제안한다. 이후 마스크 인지 손실(Mask-aware Loss)과 자기-교사 학습 손실(Self-distillation Loss)을 설계하여 IP-CLIP 인코더를 미세조정함으로써, CLIP이 다양한 마스크 후보에 민감하게 반응하도록 하면서도 전이 능력을 손상시키지 않도록 한다. 이를 통해 진짜 긍정(positive) 예측이 두드러지게 나타나는 마스크 인지 표현을 간편하게 학습할 수 있다. 특히, 제안된 방법은 대부분의 기존 방법에 원활하게 통합 가능하며, 미세조정 과정에서 새로운 파라미터를 추가하지 않는다. 우리는 대표적인 제로샷 기준 데이터셋에서 광범위한 실험을 수행하였다. MAFT를 적용함으로써 최신 기술의 성능이 크게 향상되었으며, 미관측 클래스에 대한 mIoU 기준으로 COCO에서 50.4% (+8.2%), Pascal-VOC에서 81.8% (+3.2%), ADE20K에서 8.7% (+4.3%)의 성능 향상을 기록하였다. 코드는 https://github.com/jiaosiyu1999/MAFT.git 에 공개되어 있다.