Open-Vocabulary Universal Image Segmentation with MaskCLIP 마스크CLIP을 이용한 개방 어휘 보편적 이미지 분할

본 논문에서는 신흥 컴퓨터 비전 과제인 오픈-어휘 보편적 이미지 세그멘테이션(open-vocabulary universal image segmentation)을 다룹니다. 이 과제는 추론 시에 텍스트 기반 설명의 임의 범주에 대해 의미/인스턴스/판토픽 세그멘테이션(배경 의미 라벨링 + 전경 인스턴스 세그멘테이션)을 수행하는 것을 목표로 합니다. 먼저, 미세조정(finetuning)이나 지식 증류(distillation) 없이事前训练好的CLIP 모델을 직접 채택하여 기준선 방법을 구축합니다. 그런 다음, MaskCLIP라는 트랜스포머 기반 접근법을 개발하는데, 이는 의미/인스턴스 세그멘테이션과 클래스 예측을 위해事前训练된 ViT CLIP 모델과 마스크 토큰을 원활하게 통합하는 인코더만 구성요소인 MaskCLIP 시각 인코더를 사용합니다. MaskCLIP은 시간 소모적인 학생-교사 훈련 과정을 피하면서, MaskCLIP 시각 인코더 내에서事前训练된 부분적/밀집형 CLIP 특징들을 효율적이고 효과적으로 활용하는 방법을 학습합니다. MaskCLIP은 ADE20K와 PASCAL 데이터셋에서 의미/인스턴스/판토픽 세그멘테이션에 있어 이전 방법들을 능가합니다. 또한 온라인 사용자 정의 범주를 이용한 MaskCLIP의 질적 일러스트레이션도 제시합니다. 프로젝트 웹사이트: https://maskclip.github.io.注:在韩语中,“事前训练”是一个较为少见的技术术语,通常可以翻译为“预训练”。为了保持信息完整性,我在文中保留了“事前训练”的翻译,并在括号中标注了原文。如果需要进一步调整,请告知。