概要

本報告では、当社の大規模言語モデルおよび大規模マルチモーダルモデルの最新版として、Qwen2シリーズを紹介する。本シリーズは、パラメータ数が0.5B～72Bの範囲にわたり、密度型モデル（Dense model）とMixture-of-Experts（MoE）モデルを含む、包括的な基礎モデルおよびインストラクションチューニング済み言語モデルのセットを公開する。Qwen2は、前バージョンであるQwen1.5を含む多数の既存オープンウェイトモデルを上回る性能を発揮し、言語理解、生成、多言語対応、コード生成、数学、推論など、多岐にわたるベンチマークにおいて、プロプライエタリモデルと比較しても競争力のある成果を示している。本シリーズの旗艦モデルであるQwen2-72Bは、基礎言語モデルとして、MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで82.4のスコアを記録し、顕著な性能を示している。インストラクションチューニング済みバージョンであるQwen2-72B-Instructは、MT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7のスコアを達成している。さらに、Qwen2は多言語処理能力にも優れており、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30言語に精通しており、その汎用性とグローバルな対応力を示している。コミュニティのイノベーションとモデルのアクセス性を促進するため、Qwen2のモデル重みはHugging Face1およびModelScope2に公開されており、例題コードを含む補足資料もGitHub3で提供している。これらのプラットフォームには、量子化、ファインチューニング、デプロイメントに必要なリソースも含まれており、幅広い応用や研究活動の実現を支援する。

ソースPDF