13일 전

SILC: 자기-편자(Self-Distillation)를 통한 시각-언어 사전학습 개선

Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari
SILC: 자기-편자(Self-Distillation)를 통한 시각-언어 사전학습 개선
초록

웹 규모의 이미지 캡션 데이터셋에서 이미지-텍스트 사전학습은 CLIP 및 그 변종들의 성공 덕분에 오픈 뷰포트(Open Vocabulary) 분류 및 검색 모델의 표준적인 학습 방식으로 자리 잡았다. 여러 연구들은 또한 CLIP의 특징을 밀도 높은 예측 작업에 활용하며 오픈 세트(open-set) 능력의 등장을 보여주었다. 그러나 이러한 모델들이 사용하는 대조적(Objective) 목적함수는 이미지-텍스트 정렬에만 집중할 뿐, 밀도 높은 예측 작업을 위한 이미지 특징 학습을 유도하지 않는다. 본 연구에서는 시각-언어 사전학습을 위한 새로운 프레임워크인 SILC를 제안한다. SILC는 자기-디스틸레이션(Self-distillation)을 통해 국소적 특징과 전역적 특징 간의 대응 관계 학습을 간단히 추가함으로써 이미지-텍스트 대조 학습을 개선한다. 우리는 지수 이동 평균(Exponential Moving Average, EMA) 교사 모델로부터 국소 이미지 특징을 디스틸레이션하는 것이 객체 탐지 및 세그멘테이션과 같은 밀도 높은 예측 작업에서 모델 성능을 크게 향상시키며, 분류 및 검색과 같은 이미지 수준 작업에서도 성능 향상을 제공함을 보여준다. SILC 모델은 제로샷 분류, 희소 샷 분류, 이미지 및 텍스트 검색, 제로샷 세그멘테이션, 오픈 뷰포트 세그멘테이션 등에서 새로운 최고 성능(SOTA)을 달성한다. 또한 SILC 특징이 오픈 뷰포트 탐지, 캡션 생성, 시각적 질의 응답(VQA) 등에서도 크게 기여함을 입증한다.