Command Palette

Search for a command to run...

2 个月前

MobileCLIP2:提升多模态强化训练

Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

MobileCLIP2:提升多模态强化训练

摘要

以CLIP为代表的基座图文模型凭借零样本(zero-shot)能力,已广泛应用于各类场景。MobileCLIP是一系列近期推出的图文模型,其推理延迟仅为3–15毫秒,参数量在50–150M之间,同时在零样本准确率方面达到当前最优水平。MobileCLIP的核心优势在于其低延迟、轻量化的网络架构,以及一种创新的多模态强化训练方法——该方法高效、可扩展且可复现地实现了来自多个图文生成器(caption-generators)和CLIP教师模型的知识蒸馏。 本文中,我们通过以下方式进一步优化了MobileCLIP的多模态强化训练:1)在DFN数据集上训练了性能更优的CLIP教师模型集成;2)在DFN数据集上训练了改进的图文生成器教师模型,并在其上进一步微调于多样且高质量的图像-文本数据集组合。通过消融实验,我们获得了若干新见解,包括:对比知识蒸馏中温度调节的重要性、图文生成器微调对提升文本多样性的作用,以及结合多个模型生成的合成文本所带来的叠加性性能提升。 基于上述改进,我们训练出新一代模型系列——MobileCLIP2,并在低延迟条件下实现了ImageNet-1k零样本分类任务的当前最优准确率。具体而言,与MobileCLIP-B架构相比,MobileCLIP2-B在ImageNet-1k上的准确率提升了2.2%。尤为突出的是,MobileCLIP2-S4在ImageNet-1k上的零样本准确率与SigLIP-SO400M/14相当,但模型规模仅为后者的二分之一,且在DFN ViT-L/14上的推理延迟降低了2.5倍。 我们已公开发布预训练模型(访问此https URL)以及数据生成代码(访问此https URL)。该数据生成代码支持通过分布式可扩展处理,灵活地利用任意教师模型构建新的强化训练数据集,便于后续研究与应用拓展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MobileCLIP2:提升多模态强化训练 | 论文 | HyperAI超神经