Command Palette

Search for a command to run...

1 个月前

WAVECLIP:小波Token化用于自适应分辨率CLIP

Moshe Kimhi Erez Koifman Ehud Rivlin Eli Schwartz Chaim Baskin

WAVECLIP:小波Token化用于自适应分辨率CLIP

摘要

我们提出 WAVECLIP,这是一种基于小波分块(wavelet-based tokenization)实现 CLIP 模型自适应分辨率推理的统一单模型架构。WAVECLIP 用多层级小波分解替代了传统的图像块嵌入(patch embeddings),使模型能够从粗到细逐步处理图像,同时在单一模型中自然支持多种分辨率。在推理阶段,模型从低分辨率的 token 开始,仅在必要时进行细化,并通过键值缓存(key-value caching)和因果跨层级注意力机制(causal cross-level attention)复用已有计算,从而仅在需要时引入新的信息。我们在零样本分类任务中评估了 WAVECLIP,结果表明,仅通过一个基于置信度的门控机制即可实现自适应的早期退出(adaptive early exits)。这使得用户能够通过部署单一模型,动态选择计算开销与精度之间的权衡。我们的方法仅需从一个冻结的 CLIP 教师模型进行轻量级知识蒸馏,即可在显著降低计算成本的同时,达到具有竞争力的准确率。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供