15 天前

Yi:01.AI 发布的开源基础模型

01.AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
Yi:01.AI 发布的开源基础模型
摘要

我们推出了Yi模型系列,这是一组具备强大多维能力的语言与多模态模型。Yi模型系列基于6B和34B参数量的预训练语言模型构建,并在此基础上拓展为对话模型、支持20万词长上下文的模型、深度增强型模型以及视觉-语言模型。我们的基础模型在多项基准测试中表现优异,例如MMLU;而经过微调的对话模型在AlpacaEval与Chatbot Arena等主流评估平台上的用户偏好评分也达到了高水平。基于我们可扩展的超算基础设施以及经典的Transformer架构,我们认为Yi模型的优异性能主要归因于高质量数据的积累,而这得益于我们在数据工程方面的系统性努力。在预训练阶段,我们通过级联式数据去重与质量过滤流程,构建了总计3.1万亿词元(tokens)的中英文语料库。在微调阶段,我们对一个规模较小(少于1万条)的指令数据集进行了多轮精细化打磨,确保每一条样本均由我们的机器学习工程师直接验证。在视觉-语言模型方面,我们将对话语言模型与视觉Transformer编码器相结合,训练模型实现视觉表征与语言模型语义空间的对齐。此外,我们通过轻量级持续预训练(lightweight continual pretraining)将模型上下文长度扩展至20万词,显著提升了“在 haystack 中找 needle”(即在长文本中精准定位关键信息)的检索能力。我们进一步证明,通过持续预训练扩展预训练检查点的深度,能够进一步提升模型性能。我们认为,基于当前成果,若持续采用经过充分优化的数据进行模型参数规模的扩展,将有望催生更强大的前沿模型。

Yi:01.AI 发布的开源基础模型 | 最新论文 | HyperAI超神经