Command Palette
Search for a command to run...
Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

초록
CLIP과 같은 기초 이미지-텍스트 모델은 제로샷(zero-shot) 능력을 갖추고 있어 다양한 응용 분야에 활용될 수 있다. MobileCLIP은 최근 개발된 이미지-텍스트 모델의 일종으로, 지연 시간이 3~15ms 수준이며 파라미터 수는 50~150M에 달하며, 최첨단의 제로샷 정확도를 달성하고 있다. MobileCLIP의 핵심 요소는 저지연, 경량화된 아키텍처와, 다수의 캡션 생성기와 CLIP 교사 모델로부터 지식 증류를 효율적이고 확장 가능하며 재현 가능한 방식으로 수행할 수 있도록 한 혁신적인 다모달 강화 학습(multi-modal reinforced training) 기법이었다. 본 논문에서는 MobileCLIP의 다모달 강화 학습 방식을 다음과 같은 방식으로 개선한다: 1) DFN 데이터셋으로 훈련된 보다 우수한 CLIP 교사 앙상블, 2) DFN 데이터셋으로 훈련된 캡션 생성기 교사 모델을 다양한 고품질 이미지-캡션 데이터셋으로 미세조정(fine-tuning)한 것. 우리는 다양한 제거 실험(ablation studies)를 통해 새로운 통찰을 도출하였으며, 이는 대조적 지식 증류에서 온도 조정(temperature tuning)의 중요성, 캡션 생성기의 미세조정이 캡션 다양성에 미치는 효과, 여러 모델이 생성한 합성 캡션을 결합함으로써 얻는 누적적 성능 향상 등을 포함한다. 이를 바탕으로 새로운 모델 패밀리인 MobileCLIP2를 훈련하여, 낮은 지연 시간에서도 ImageNet-1k 제로샷 정확도에서 최고 수준의 성능을 달성하였다. 특히 MobileCLIP2-B는 MobileCLIP-B 아키텍처 대비 ImageNet-1k 정확도에서 2.2% 향상된 성과를 기록하였다. 특히 MobileCLIP2-S4는 ImageNet-1k에서 SigLIP-SO400M/14의 제로샷 정확도와 동일한 수준을 달성하면서도 크기는 2배 작고, DFN ViT-L/14 대비 2.5배 낮은 지연 시간에서 성능이 우수하다. 본 연구에서는 사전 훈련된 모델(이 URL: https://...)과 데이터 생성 코드(이 URL: https://...)를 공개한다. 데이터 생성 코드는 분산 처리 기반의 확장 가능한 방식을 통해 임의의 교사 모델을 활용하여 새로운 강화 데이터셋을 쉽게 생성할 수 있도록 지원한다.