HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2.5 技術報告

概要

本報告では、多様なニーズに対応するよう設計された、包括的な大規模言語モデル(LLM)シリーズ「Qwen2.5」を紹介する。前回のバージョンと比較して、Qwen2.5は事前学習段階および事後学習段階の両方で顕著な改善がなされている。事前学習の観点では、前回の7兆トークンに上る高品質な事前学習データセットを、18兆トークンに拡大した。これにより、常識、専門知識、推論能力の基盤が大幅に強化された。事後学習においては、100万件以上のサンプルを用いた高度な教師あり微調整(supervised fine-tuning)と、段階的な強化学習(reinforcement learning)を実装した。これらの事後学習技術により、人間の好みに配慮した出力の質が向上し、特に長文生成、構造化データの分析、指示の忠実な遵守能力が顕著に改善された。多様で複雑な使用事例に対応するため、Qwen2.5 LLMシリーズは多様なサイズで提供されている。オープンウェイトモデルとして、ベースモデルおよびインストラクションチューニング済みモデルが用意されており、量子化版も提供可能である。また、ホスティング型ソリューションの場合は、現在、2種類のMixture-of-Experts(MoE)アーキテクチャを搭載した独自モデル、すなわち「Qwen2.5-Turbo」と「Qwen2.5-Plus」がAlibaba Cloud Model Studioから提供されている。Qwen2.5は、言語理解、推論、数学、コーディング、人間の好みとの整合性など、多岐にわたるベンチマークにおいてトップクラスの性能を示している。特に、オープンウェイトの旗艦モデル「Qwen2.5-72B-Instruct」は、多数のオープンおよび非公開モデルを上回る性能を発揮し、サイズが約5倍大きな最新のオープンウェイトモデル「Llama-3-405B-Instruct」とも競合可能な水準に達している。また、「Qwen2.5-Turbo」と「Qwen2.5-Plus」は、それぞれGPT-4o-miniおよびGPT-4oと比較して、優れたコストパフォーマンスを実現しつつ、競争力ある性能を発揮している。さらに、Qwen2.5は、Qwen2.5-Math、Qwen2.5-Coder、QwQ、マルチモーダルモデルなど、専門用途向けモデルの学習基盤としても重要な役割を果たしている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています