3ヶ月前

Qwen2 技術報告

An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
Qwen2 技術報告
要約

本報告では、当社の大型言語モデルおよび大型マルチモーダルモデルに新たに加わった「Qwen2シリーズ」を紹介します。本シリーズは、パラメータ数が0.5億から72億にわたる包括的な基礎モデルおよび指示微調整済み言語モデルを提供しており、密度型モデル(dense model)とMixture-of-Experts(MoE)モデルを含んでいます。Qwen2は、前世代モデルであるQwen1.5を含む大多数のオープンウェイトモデルを上回り、言語理解、生成、多言語対応、コーディング、数学、推論といったさまざまなベンチマークにおいて、プロプライエタリモデルと比較しても競争力のある性能を示しています。フラッグシップモデルであるQwen2-72Bは、以下の指標で顕著な性能を発揮しました:MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで82.4(ベース言語モデルとして)。一方、指示微調整版であるQwen2-72B-Instructは、MT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7のスコアを達成しました。さらに、Qwen2は強固な多言語処理能力を備えており、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など約30言語に精通しており、その汎用性とグローバルな適用可能性を示しています。コミュニティのイノベーションとアクセシビリティを促進するため、Qwen2のモデル重みはHugging Face1およびModelScope2に公開されており、GitHub3では例示コードを含む補足資料も提供されています。これらのプラットフォームには、量子化、ファインチューニング、デプロイメントに関するリソースも含まれており、幅広い応用や研究活動の支援が可能となっています。