ZegCLIP: 제로샷 의미 분할을 위한 CLIP 적응 방향

최근 CLIP은 두 단계 기반 방식을 통해 픽셀 수준의 제로샷 학습 작업에 적용되어 왔다. 이 일반적인 접근 방식은 먼저 클래스 무관(class-agnostic)한 영역 제안(region proposals)을 생성한 후, 자르된 제안 영역을 CLIP에 입력하여 이미지 수준의 제로샷 분류 능력을 활용하는 것이다. 비록 효과적인 방법이지만, 제안 생성을 위한 하나의 이미지 인코더와 CLIP를 위한 또 다른 이미지 인코더를 필요로 하여 복잡한 파이프라인과 높은 계산 비용을 초래한다. 본 연구에서는 이러한 문제를 해결하기 위해 CLIP의 제로샷 예측 능력을 이미지 수준에서 픽셀 수준으로 직접 확장하는 단일 단계(one-stage)의 간단하고 효율적인 해결책을 제안한다. 우리의 탐색은 기본(base)으로서 간단한 확장 방식에서 시작한다. 이 방식은 CLIP에서 추출한 텍스트 임베딩과 패치 임베딩 간의 유사도를 비교하여 세그멘테이션 마스크를 생성한다. 그러나 이러한 방식은 보인 클래스에 과적합(overfit)되기 쉬우며, 보이지 않은 클래스로의 일반화 능력이 떨어진다. 이를 해결하기 위해 우리는 세 가지 간단하지만 효과적인 설계를 제안하며, 이들이 CLIP의 본질적인 제로샷 능력을 크게 유지하고 픽셀 수준의 일반화 성능을 향상시킬 수 있음을 확인하였다. 이러한 개선 요소들을 통합함으로써, 효율적인 제로샷 세그멘테이션 시스템인 ZegCLIP을 구축하였다. 공개 벤치마크 세 개에서 실시한 광범위한 실험 결과, ZegCLIP은 '인덕티브(inductive)' 및 '트랜스덕티브(transductive)' 제로샷 설정 모두에서 최신 기술(SOTA)을 크게 앞서는 성능을 보였다. 또한, 기존의 두 단계 방식과 비교했을 때, 단일 단계의 ZegCLIP은 추론 속도에서 약 5배의 가속 효과를 달성하였다. 코드는 https://github.com/ZiqinZhou66/ZegCLIP.git 에 공개한다.