3 个月前
通义千问Qwen2 技术报告
An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan

摘要
本报告介绍了通义千问系列的最新成果——Qwen2系列,这是我们在大语言模型与多模态大模型领域推出的最新一代模型。我们发布了涵盖从0.5亿到720亿参数规模的完整基础模型与指令微调模型套件,包括密集模型(dense models)以及混合专家模型(Mixture-of-Experts, MoE)架构。Qwen2在多数先前发布的开源模型(包括其前代模型Qwen1.5)中表现更优,并在语言理解、生成、多语言能力、编程、数学推理等多个基准测试中展现出与闭源模型相媲美的竞争力。旗舰模型Qwen2-72B在基础语言模型评测中表现卓越:在MMLU上取得84.2分,在GPQA上达到37.9分,在HumanEval上获得64.6分,在GSM8K上达到89.5分,在BBH上取得82.4分。其指令微调版本Qwen2-72B-Instruct在多项权威评测中同样表现突出:在MT-Bench上获得9.1分,在Arena-Hard上取得48.1分,在LiveCodeBench上达到35.7分。此外,Qwen2展现出强大的多语言能力,支持约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,充分体现了其广泛的适用性与全球化部署潜力。为推动社区创新并提升模型可及性,我们已将Qwen2系列模型权重在Hugging Face1和ModelScope2平台公开发布,并在GitHub3上提供了配套的示例代码及其他补充材料。这些平台还集成了量化、微调与部署相关资源,全面支持各类应用开发与学术研究,助力开发者与研究者高效开展创新实践。