HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-CLIP-18B:将CLIP扩展至180亿参数

Quan Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang

摘要

扩大对比语言-图像预训练(CLIP)对于增强视觉和多模态模型的能力至关重要。我们推出了EVA-CLIP-18B,这是迄今为止最大且最强大的开源CLIP模型,拥有180亿个参数。仅通过60亿个训练样本的学习,EVA-CLIP-18B在27个广泛认可的图像分类基准测试中实现了平均80.7%的零样本顶级准确率,显著优于其前代产品EVA-CLIP(50亿参数)和其他开源CLIP模型。值得注意的是,尽管维持了来自LAION-2B和COYO-700M的20亿图像-文本对的固定训练数据集,我们观察到随着EVA-CLIP模型规模的增加,性能表现持续提升。该数据集公开可用,并且比其他最先进的CLIP模型所使用的内部数据集(例如DFN-5B、WebLI-10B)小得多。EVA-CLIP-18B展示了EVA风格从弱到强的视觉模型扩展潜力。我们已公开发布该模型的权重,希望促进未来在视觉和多模态基础模型领域的研究。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供