大规模言語モデルのアーキテクチャ比較:2025年の最新動向 この記事では、2025年にリリースされた主要な大型言語モデル(LLM)のアーキテクチャを比較します。GPT-2からDeepSeek-V3、Llama 4まで、これらのモデルの基本的な構造がどの程度進化したのか、そして性能にどれだけ影響を与えているのかを詳しく検討します。特に、Multi-Head Latent Attention (MLA)やMixture-of-Experts (MoE)などの最新技術がどのように活用されているかに焦点を当てます。 ディープシークV3:効率性と性能を両立させた巨大モデル ディープシークV3は、671億パラメータを持つ巨大な言語モデルで、発売当初から他のオープンウェイトモデルを上回る性能を示しました。その秘密は、Multi-Head Latent Attention (MLA)とMixture-of-Experts (MoE)アーキテクチャにあります。MLAはKVキャッシュのメモリ使用量を削減し、MoEは推論時の効率を大幅に向上させています。 OLMo 2:トレーニングの安定性を追求したアーキテクチャ OLMo 2は、Allen Institute for AIが開発した透明性の高い言語モデルです。標準的なMulti-Head Attention (MHA)を採用しつつ、RMSNormの配置やQK-Normの導入により、トレーニングの安定性を高めています。これらの特徴が、計算リソースを効果的に利用しながら良好な性能を維持する上で重要な役割を果たしています。 ジェマ 3:スライディングウィンドウアテンションで効率化 ジェマ 3は、Googleが開発した言語モデルで、スライディングウィンドウアテンションを採用することで、KVキャッシュのメモリ使用量を大幅に削減しています。これにより、推論時の効率が向上し、27億パラメータのモデルでも高性能を維持しています。また、RMSNormの配置も独自の方法を採用しています。 Qwen 3:小型から大規模まで対応した多様なアーキテクチャ Qwen 3は、小型の0.6億パラメータモデルから大規模な235億パラメータのMoEモデルまで、幅広いサイズで提供される言語モデルです。深層アーキテクチャとMoEの組み合わせにより、推論コストを抑えつつ高性能を実現しています。特に、MoEモデルの活用が注目されています。 SmolLM 3:NoPEで位置情報を省略 SmolLM 3は、3億パラメータという比較的小さなモデルながら、高性能を発揮しています。その秘密は、NoPE(No Positional Embeddings)の採用にあります。位置情報の注入を省略することで、長さ一般化の性能が向上しています。 Kimi 2:DeepSeek V3を基にした最強のオープンウェイトモデル Kimi 2は、1兆パラメータの大規模モデルで、DeepSeek V3のアーキテクチャを拡張して開発されました。Muonオプティマイザーやより多くのエキスパートを使用するMoEモジュールにより、高性能を達成しています。現在、最も印象的なオープンウェイトモデルの一つとなっています。
大規模言語モデル(LLM)のアーキテクチャ比較 概要 大規模言語モデル(LLM)の発展は過去7年間で大きな変化を遂げてきたが、その基本的構造は当初のGPTからほとんど変わっていないように見えます。2024年末に発表されたDeepSeek V3の改良や2025年1月に公開されたDeepSeek R1の影響力、それに加えてOLMo、Gemma 3、Mistral Small 3.1、そして最新のKimi 2のアーキテクチャ上の進歩を取り上げます。 DeepSeek V3 / R1 2024年12月に発表されたDeepSeek V3と2025年1月にリリースされたDeepSeek R1は、推理能力に特化したモデルとして注目を集めました。DeepSeek V3には、Multi-Head Latent Attention(MLA)とMixture-of-Experts(MoE)レイヤーという2つの主要なアーキテクチャ上的改善が含まれています。 MLA: MLAは、KVキャッシュ内のキーと値テンソルを低次元空間に圧縮することでメモリ使用量を削減します。推論時にこれらの圧縮テンソルは元のサイズに戻されます。 実装は複雑ですが、性能は標準のMulti-Head Attention(MHA)をわずかに上回ることが示されています。 MoE: MoEは、単一のFeedForwardブロックに代わり、複数のスペシャリスト(エキスパート)を使用することでパラメーター数を増やします。 各トークンごとに少数のエキスパートのみが活性化されるため、推論時の効率性が保たれます。 例として、DeepSeek V3は総計671億のパラメーターを持ちますが、推論時には37億パラメーターのみを使用します。 OLMo 2 非営利組織のAllen Institute for AIが2025年1月に発表したOLMo 2は、トレーニングデータとコードの透明性が特徴です。このモデルはパフォーマンス面では必ずしもトップではありませんが、アーキテクチャ上の工夫が興味深いです。 RMSNormの配置: OLMo 2はPost-Normalizationを使用し、正規化層をアテンションとFeedForwardモジュールの後ろに配置します。これはトレーニングの安定性を高める効果があります。 QK-Norm: QK-Normは、アテンションメカニズム内でクエリとキーに対して適用されるRMSNormで、これもトレーニングの安定性を向上させます。 これらの正規化層の配置は、モデルのトレーニングロスを安定させるのに有効でした。 Gemma 3 Googleの2025年3月にリリースされたGemma 3は、効率的な推論を可能にする「スライディングウィンドウアテンション」を採用しています。同モデルは27億パラメーターで、リソースを必要としないながらも高い性能を発揮します。 スライディングウィンドウアテンション: スライディングウィンドウのアテンション領域は、トークンが参照できるコンテクスト範囲を制限することで、KVキャッシュのメモリ使用量を大幅に削減します。 Gemma 3は、全層の中で5つの層に1つのフルアテンション層を配置する5:1の比率を使用し、スライディングウィンドウサイズは1024に縮小されました。 正規化層の配置: Gemma 3は、グループクエリアテンション(GQA)モジュールの周りにPre-NormとPost-Normの両方を使用しており、他のモデルとは異なる正規化手法を採用しています。 Mistral Small 3.1 2025年3月にリリースされたMistral Small 3.1 24Bは、いくつかのベンチマークでGemma 3 27Bより良い性能を示しました(数学を除く)。主な理由としては、カスタムトークナイザーやKVキャッシュの最適化が挙げられます。 GQAとKVキャッシュ: Mistral Small 3.1は標準的なGQAを使用し、KVキャッシュのメモリ使用量を減らす一方で、推論速度の向上を追求しています。 正規化層: 正規化層の配置は標準的で、GQAの前後にRMSNormレイヤーを置き、推論の効率性と安定性のバランスを取っています。 Llama 4 2025年5月にリリースされたLlama 4は、DeepSeek V3に似たアーキテクチャを採用しています。ただし、いくつかの相違点もあります。 アテンションメカニズム: Llama 4はGQAを使用し、DeepSeek V3はMLAを使用します。 Llama 4のGQAは8つのアテンションヘッドを使用し、DeepSeek V3は9つのモジュールを活性化します。 MoE設置: Llama 4は古典的なMoEアプローチを使用し、各トランスフォーマーブロックで交互にMoEモジュールと密集型モジュールを配置します。 Qwen 3 Qwen 3は2025年2月にリリースされ、さまざまなベンチマークで好成績を収めています。7つのデンド型モデルと2つのMoEモデルが用意されており、用途に応じて選択可能です。 小さなモデル: Qwen 3 0.6Bは最小の現行世代のオープンウェイトモデルで、ローカルでの推論に最適化されています。 小さなパラメータ数ゆえ、ローカル環境での訓練と推論が容易です。 MoEモデル: Qwen 3は30Bと235BのMoEモデルも提供しており、大型モデルの効率的な推論を可能にしています。 SmolLM 3 2025年5月にリリースされたSmolLM 3は、3億パラメーターで優れた性能を発揮します。特筆すべきは、NoPE(No Positional Embeddings)の使用です。 NoPE: NoPEは位置情報を明示的に注入せず、因果的なアテンションマスクを通じてトークンの順序を保持します。 訓練中の損失が滑らかになることから、長さの一般的化が良好であることが示されています。 Kimi 2 2025年9月にリリースされたKimi 2は、1兆パラメーターの大規模モデルで、最高のベンチマークスコアを持つオープンウェイトモデルとして話題を呼びました。 アーキテクチャ: Kimi 2はDeepSeek V3のアーキテクチャをベースにしており、MoEモジュールでより多くのエキスパートを使用し、MLAでは少ないヘッドを使用しています。 新しいMuonオプティマイザーによって、非常に滑らかな訓練損失曲線を達成し、性能向上に貢献しました。 業界関係者のコメントと会社概要 DeepSeek V3の開発者チームは、MLAとMoEの組み合わせによる性能と効率性の最適化に成功したとコメントしています。OLMoの開発者は、モデルの透明性とトレーニングの安定性を重視していると述べています。GoogleのGemmaチームは、スライディングウィンドウアテンションによるメモリ効率の改善や、異なるデバイスでの最適化を目指していると説明しています。Qwen 3の開発者チームは、小型モデルとMoEモデルの併用により幅広い利用シーンをサポートすることを目標としています。SmolLM 3の開発者チームは、NoPEによる位置情報の排除が効果的であると報告しています。最後に、Kimi 2チームは新しいOptimizerを採用し、最高のパフォーマンスを達成したと強調しています。 これらの LLNs の進歩は、推論効率の向上やモデル性能の最適化に向けた重要な歩みとなっています。今後も、様々なアーキテクチャ的アプローチが引き続き発展していくことが期待されます。