마스크 적응형 CLIP을 이용한 오픈-보라티지 의미 분할

오픈-보라티지(semantic segmentation)는 훈련 과정에서 등장하지 않았을 수 있는 텍스트 기반 설명에 따라 이미지를 의미 영역으로 분할하는 것을 목표로 한다. 최근의 두 단계형 방법은 먼저 클래스 무관(class-agnostic)한 마스크 후보를 생성한 후, 사전 훈련된 비전-언어 모델(예: CLIP)을 활용하여 마스킹된 영역을 분류한다. 본 연구에서는 이 접근 방식의 성능 한계가 사전 훈련된 CLIP 모델에 있음을 지적한다. 왜냐하면 CLIP는 마스킹된 이미지에 대해 성능이 낮기 때문이다. 이를 해결하기 위해, 마스킹된 이미지 영역과 해당 텍스트 설명의 집합에 대해 CLIP를 미세 조정(finetune)하는 방법을 제안한다. 우리는 기존의 이미지-캡션 데이터셋(COCO Captions 등)을 탐색하여 학습 데이터를 수집하며, CLIP를 활용해 마스킹된 이미지 영역을 캡션 내 명사와 매칭한다. 고정된 클래스에 대한 정밀하고 수작업으로 레이블링된 세그멘테이션 레이블(예: COCO-Stuff)과 비교하여, 본 연구는 노이즈가 있지만 다양한 특성을 지닌 우리 데이터셋이 CLIP의 일반화 능력을 더 잘 유지함을 발견했다. 전체 모델의 미세 조정과 함께, 마스킹된 이미지 내 '공백(blank)' 영역을 활용하는 방법을 제안하며, 이를 '마스크 프롬프트 튜닝(mask prompt tuning)'이라 명명한다. 실험 결과, CLIP의 가중치를 전혀 수정하지 않고도 마스크 프롬프트 튜닝이 상당한 성능 향상을 가져오며, 완전히 미세 조정된 모델의 성능을 추가로 향상시킬 수 있음을 입증하였다. 특히, COCO에서 훈련하고 ADE20K-150에서 평가했을 때, 최적 모델은 29.6%의 mIoU를 달성하여 기존 최고 성능보다 +8.5% 높은 성능을 보였다. 이는 오픈-보라티지 일반화 모델이 데이터셋에 특화되지 않은 적응 없이도 2017년 기준의 감독 학습 전문 모델의 성능을 처음으로 근접시킨다는 의미이다.