2달 전

CLIPSelf: Vision Transformer가 오픈 어휘 밀도 예측을 위해 자기 자신을 증류하다

Size Wu; Wenwei Zhang; Lumin Xu; Sheng Jin; Xiangtai Li; Wentao Liu; Chen Change Loy
CLIPSelf: Vision Transformer가 오픈 어휘 밀도 예측을 위해 자기 자신을 증류하다
초록

개방형 어휘 밀도 예측 작업(예: 객체 검출 및 이미지 분할)은 대조적 언어-이미지 사전 학습(Contrastive Language-Image Pre-training, CLIP)의 성공에 힘입어 크게 발전하였습니다. 특히 비전 트랜스포머(Vision Transformers, ViTs)를 통합한 CLIP 모델들은 제로샷 이미지 분류에서 뛰어난 일반화 능력을 보여주었습니다. 그러나, CLIP의 비전-언어 정렬을 전역 이미지 표현에서 지역 영역 표현으로 이동시키는 과정에서, CLIP ViTs는 전체 이미지에서 지역 이미지 영역으로의 도메인 시프트(domain shift) 문제에 직면하였습니다. 본 논문에서는 이러한 개방형 어휘 밀도 예측 작업에 필수적인 CLIP 모델들의 지역-언어 정렬을 깊이 있게 분석합니다. 그 결과, 어떠한 지역-텍스트 쌍도 필요하지 않게 CLIP ViT의 이미지 수준 인식 능력을 지역 이미지 영역으로 적응시키는 방법론인 CLIPSelf를 제안합니다. CLIPSelf는 해당 이미지 부분의 이미지 수준 표현과 자신의 밀도 특징 맵에서 추출된 지역 표현을 정렬함으로써 ViTs가 스스로를 증류(distill)하도록 합니다. 강화된 CLIP ViTs를 통해 우리는 다양한 벤치마크에서 개방형 어휘 객체 검출, 의미 분할, 그리고 판옵틱 분할 등의 새로운 최고 수준 성능을 달성하였습니다. 모델과 코드는 https://github.com/wusize/CLIPSelf 에서 공개되었습니다.

CLIPSelf: Vision Transformer가 오픈 어휘 밀도 예측을 위해 자기 자신을 증류하다 | 최신 연구 논문 | HyperAI초신경