Command Palette
Search for a command to run...
Moshe Kimhi Erez Koifman Ehud Rivlin Eli Schwartz Chaim Baskin

초록
우리는 웨이브릿 기반 토큰화를 통해 CLIP에서 적응형 해상도 추론을 가능하게 하는 단일 통합 모델인 WAVECLIP을 제안한다. WAVECLIP은 표준 패치 임베딩 대신 다중 수준의 웨이브릿 분해를 사용함으로써, 이미지를 거시적에서 미시적으로 순차적으로 처리할 수 있도록 하며, 동시에 동일한 모델 내에서 여러 해상도를 자연스럽게 지원한다. 추론 시점에서 모델은 낮은 해상도의 토큰부터 시작하여 필요할 때만 세부 정보를 보정하며, 키-값 캐싱과 인과적 크로스레벨 어텐션을 활용해 계산을 재사용함으로써, 필요한 순간에만 새로운 정보를 모델에 도입한다. 우리는 제로샷 분류 작업에서 WAVECLIP을 평가하여, 단순한 신뢰도 기반 게이팅 메커니즘이 적응형 조기 종료를 가능하게 함을 입증하였다. 이는 사용자가 단일 배포된 모델을 통해 계산량과 정확도 사이의 동적 트레이드오프를 선택할 수 있음을 의미한다. 본 연구 방법은 고정된 CLIP 교사 모델로부터의 경량 디스틸레이션만 필요로 하며, 상당한 계산량 절감과 경쟁 가능한 정확도를 동시에 달성한다.