Command Palette

Search for a command to run...

2달 전

모바일클립2: 다중 모달 강화 학습 개선

Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

모바일클립2: 다중 모달 강화 학습 개선

초록

CLIP과 같은 기초 이미지-텍스트 모델은 제로샷(zero-shot) 능력을 갖추고 있어 다양한 응용 분야에 활용될 수 있다. MobileCLIP은 최근 개발된 이미지-텍스트 모델의 일종으로, 지연 시간이 3~15ms 수준이며 파라미터 수는 50~150M에 달하며, 최첨단의 제로샷 정확도를 달성하고 있다. MobileCLIP의 핵심 요소는 저지연, 경량화된 아키텍처와, 다수의 캡션 생성기와 CLIP 교사 모델로부터 지식 증류를 효율적이고 확장 가능하며 재현 가능한 방식으로 수행할 수 있도록 한 혁신적인 다모달 강화 학습(multi-modal reinforced training) 기법이었다. 본 논문에서는 MobileCLIP의 다모달 강화 학습 방식을 다음과 같은 방식으로 개선한다: 1) DFN 데이터셋으로 훈련된 보다 우수한 CLIP 교사 앙상블, 2) DFN 데이터셋으로 훈련된 캡션 생성기 교사 모델을 다양한 고품질 이미지-캡션 데이터셋으로 미세조정(fine-tuning)한 것. 우리는 다양한 제거 실험(ablation studies)를 통해 새로운 통찰을 도출하였으며, 이는 대조적 지식 증류에서 온도 조정(temperature tuning)의 중요성, 캡션 생성기의 미세조정이 캡션 다양성에 미치는 효과, 여러 모델이 생성한 합성 캡션을 결합함으로써 얻는 누적적 성능 향상 등을 포함한다. 이를 바탕으로 새로운 모델 패밀리인 MobileCLIP2를 훈련하여, 낮은 지연 시간에서도 ImageNet-1k 제로샷 정확도에서 최고 수준의 성능을 달성하였다. 특히 MobileCLIP2-B는 MobileCLIP-B 아키텍처 대비 ImageNet-1k 정확도에서 2.2% 향상된 성과를 기록하였다. 특히 MobileCLIP2-S4는 ImageNet-1k에서 SigLIP-SO400M/14의 제로샷 정확도와 동일한 수준을 달성하면서도 크기는 2배 작고, DFN ViT-L/14 대비 2.5배 낮은 지연 시간에서 성능이 우수하다. 본 연구에서는 사전 훈련된 모델(이 URL: https://...)과 데이터 생성 코드(이 URL: https://...)를 공개한다. 데이터 생성 코드는 분산 처리 기반의 확장 가능한 방식을 통해 임의의 교사 모델을 활용하여 새로운 강화 데이터셋을 쉽게 생성할 수 있도록 지원한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp