2달 전

ProxyCLIP: 프록시 주의력이 오픈-어휘 분할을 위한 CLIP를 개선하다

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang
ProxyCLIP: 프록시 주의력이 오픈-어휘 분할을 위한 CLIP를 개선하다
초록

오픈 어휘 의미 분할은 모델이 시각적 표현과 오픈 어휘 의미 라벨을 효과적으로 통합하는 것을 요구합니다. 대조적으로 언어-이미지 사전 학습(Contrastive Language-Image Pre-training, CLIP) 모델은 텍스트에서 시각적 개념을 인식하는 데 뛰어나지만, 위치 결정 능력의 제한으로 인해 분할 일관성에 어려움을 겪습니다. 반면, 비전 기초 모델(Vision Foundation Models, VFMs)은 공간적으로 일관된 국소 시각적 표현을 획득하는 데 우수하지만, 의미 이해에서는 부족합니다. 본 논문에서는 이러한 두 가지 모델의 장점을 조화롭게 결합하기 위해 ProxyCLIP이라는 혁신적인 프레임워크를 소개합니다. ProxyCLIP은 VFMs로부터 얻은 공간 특징 대응 관계를 프록시 주의력(proxy attention) 형태로 활용하여 CLIP을 강화함으로써, VFMs의 강건한 국소 일관성을 계승하면서 CLIP의 뛰어난 제로샷 전이 능력을 유지합니다. 우리는 VFMs 간의 적응성을 가능하게 하는 적응형 정규화 및 마스킹 전략을 제안합니다. 특히, 학습 과정이 필요 없는 접근 방식인 ProxyCLIP은 8개 벤치마크에서 평균 mean Intersection over Union(mIoU)를 40.3에서 44.4로 크게 개선하여, 오픈 어휘 분할 작업에서 공간 정밀도와 의미 풍부성 사이의 격차를 효과적으로 좁히는 데 그 우수성을 입증하였습니다.

ProxyCLIP: 프록시 주의력이 오픈-어휘 분할을 위한 CLIP를 개선하다 | 최신 연구 논문 | HyperAI초신경