Command Palette
Search for a command to run...
Moshe Kimhi Erez Koifman Ehud Rivlin Eli Schwartz Chaim Baskin

摘要
我们提出 WAVECLIP,这是一种基于小波分块(wavelet-based tokenization)实现 CLIP 模型自适应分辨率推理的统一单模型架构。WAVECLIP 用多层级小波分解替代了传统的图像块嵌入(patch embeddings),使模型能够从粗到细逐步处理图像,同时在单一模型中自然支持多种分辨率。在推理阶段,模型从低分辨率的 token 开始,仅在必要时进行细化,并通过键值缓存(key-value caching)和因果跨层级注意力机制(causal cross-level attention)复用已有计算,从而仅在需要时引入新的信息。我们在零样本分类任务中评估了 WAVECLIP,结果表明,仅通过一个基于置信度的门控机制即可实现自适应的早期退出(adaptive early exits)。这使得用户能够通过部署单一模型,动态选择计算开销与精度之间的权衡。我们的方法仅需从一个冻结的 CLIP 教师模型进行轻量级知识蒸馏,即可在显著降低计算成本的同时,达到具有竞争力的准确率。