17일 전
MasQCLIP을 활용한 오픈-보라티지 유니버설 이미지 세그멘테이션
{Zhuowen Tu, Zheng Ding, Tianyi Xiong, Xin Xu}

초록
우리는 통합된 프레임워크 내에서 인스턴스, 세그멘테이션, 패노픽 세그멘테이션을 수행할 수 있는 새로운 오픈-보라티지 유니버설 이미지 세그멘테이션 방법을 제안한다. 본 연구에서 제안하는 방법은 MasQCLIP로 명명되며, 사전 학습된 CLIP 모델의 밀집 특징(dense features)을 활용함으로써 광범위한 파라미터 학습 없이도 원활하게 통합될 수 있다. MasQCLIP는 CLIP 모델을 기반으로 한 이미지 세그멘테이션 방법을 구축할 때 두 가지 새로운 측면에 초점을 맞추고 있다: 1) 기존(보인) 클래스에서 정보를 흡수하여 새로운(보이지 않은) 클래스의 마스크 처리를 위한 학생-교사(student-teacher) 모듈; 2) CLIP 모델 내 쿼리(Q)에 대한 모델 파라미터 업데이트를 위한 미세조정(fine-tuning) 과정. 이러한 두 가지 간단하고 직관적인 설계 덕분에, MasQCLIP는 오픈-보라티지 인스턴스, 세그멘테이션, 패노픽 세그멘테이션을 포함한 세 가지 모든 작업에서 경쟁 기법들에 비해 크게 우수한 성능을 달성하며, 최첨단 수준의 성능을 보여준다. 프로젝트 페이지는 https://masqclip.github.io/ 에서 확인할 수 있다.