HyperAIHyperAI

Command Palette

Search for a command to run...

中文CLIP:面向中文的对比视觉-语言预训练

An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou

摘要

CLIP(Radford 等,2021)的巨大成功推动了视觉-语言对比学习在预训练领域的研究与应用。在本工作中,我们构建了一个大规模的中英文图像-文本配对数据集,其中大部分数据来源于公开可获取的数据集,并基于该新数据集对中文CLIP模型进行了预训练。我们开发了五种不同规模的中文CLIP模型,参数量范围从7700万到9.58亿不等。此外,我们提出了一种两阶段预训练方法:首先在图像编码器冻结的条件下进行训练,随后对所有模型参数进行联合优化,以进一步提升模型性能。大量实验结果表明,中文CLIP在零样本学习(zero-shot learning)和微调(fine-tuning)两种设置下,均在MUGE、Flickr30K-CN和COCO-CN基准上取得了当前最优(state-of-the-art)的性能表现;同时,在ELEVATER基准(Li 等,2022)上的零样本图像分类任务中也展现出具有竞争力的性能。相关代码、模型及演示已开源,详见:https://github.com/OFA-Sys/Chinese-CLIP


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供