2달 전

고품질 마스크 조정이 오픈 보카브러리 세그멘테이션에 중요하다

Quan-Sheng Zeng; Yunheng Li; Daquan Zhou; Guanbin Li; Qibin Hou; Ming-Ming Cheng
고품질 마스크 조정이 오픈 보카브러리 세그멘테이션에 중요하다
초록

오픈 어휘 이미지 세그멘테이션은 마스크 생성기와 콘트라스트 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)과 같은 비전-언어 모델 간의 시너지를 통해 발전되었습니다. 이전 접근 방식은 학습 중에 마스크 특성을 텍스트 임베딩과 일치시키는 데 초점을 맞추고 마스크를 생성하는 것을 목표로 하였습니다. 본 논문에서는 저품질의 생성된 마스크에 의존하면 지역 표현에서 비전과 언어의 일치성이 약화될 수 있다는 점을 관찰하였습니다. 이를 바탕으로 우리는 CLIP의 마스크 분류 능력을 향상시키기 위해 생성된 마스크 대신 실제 마스크를 사용하는 새로운 미세 조정 프레임워크인 MaskCLIP++를 제안합니다. 마스크 주석이 있는 이미지 세그멘테이션 데이터셋의 다양성이 제한적이라는 점을 고려하여, 우리는 미세 조정 과정에서 일관성 일치 원칙을 통합하는 것을 제안합니다. 이는 미세 조정 데이터셋에 대한 범주적 편향을 완화시킵니다. 저렴한 비용으로 미세 조정 후, MaskCLIP++는 다중 도메인 데이터셋에서 마스크 분류 성능을 크게 개선했습니다. 이전 최고 성능의 마스크 기반 오픈 어휘 세그멘테이션 방법론에서 사용된 마스크 생성기를 결합하면, A-847, PC-459, A-150, PC-59, PAS-20 데이터셋에서 각각 +1.7, +2.3, +2.1, +3.1, +0.3 mIoU(mIoU: mean Intersection over Union)의 성능 향상을 달성하였습니다. 코드는 https://github.com/HVision-NKU/MaskCLIPpp 에서 제공됩니다.

고품질 마스크 조정이 오픈 보카브러리 세그멘테이션에 중요하다 | 최신 연구 논문 | HyperAI초신경