HyperAI超神经

大規模言語モデル（LLM）のアーキテクチャ比較概要大規模言語モデル（LLM）の発展は過去7年間で大きな変化を遂げてきたが、その基本的構造は当初のGPTからほとんど変わっていないように見えます。2024年末に発表されたDeepSeek V3の改良や2025年1月に公開されたDeepSeek R1の影響力、それに加えてOLMo、Gemma 3、Mistral Small 3.1、そして最新のKimi 2のアーキテクチャ上の進歩を取り上げます。 DeepSeek V3 / R1 2024年12月に発表されたDeepSeek V3と2025年1月にリリースされたDeepSeek R1は、推理能力に特化したモデルとして注目を集めました。DeepSeek V3には、Multi-Head Latent Attention（MLA）とMixture-of-Experts（MoE）レイヤーという2つの主要なアーキテクチャ上的改善が含まれています。 MLA: MLAは、KVキャッシュ内のキーと値テンソルを低次元空間に圧縮することでメモリ使用量を削減します。推論時にこれらの圧縮テンソルは元のサイズに戻されます。実装は複雑ですが、性能は標準のMulti-Head Attention（MHA）をわずかに上回ることが示されています。 MoE: MoEは、単一のFeedForwardブロックに代わり、複数のスペシャリスト（エキスパート）を使用することでパラメーター数を増やします。各トークンごとに少数のエキスパートのみが活性化されるため、推論時の効率性が保たれます。例として、DeepSeek V3は総計671億のパラメーターを持ちますが、推論時には37億パラメーターのみを使用します。 OLMo 2 非営利組織のAllen Institute for AIが2025年1月に発表したOLMo 2は、トレーニングデータとコードの透明性が特徴です。このモデルはパフォーマンス面では必ずしもトップではありませんが、アーキテクチャ上の工夫が興味深いです。 RMSNormの配置: OLMo 2はPost-Normalizationを使用し、正規化層をアテンションとFeedForwardモジュールの後ろに配置します。これはトレーニングの安定性を高める効果があります。 QK-Norm: QK-Normは、アテンションメカニズム内でクエリとキーに対して適用されるRMSNormで、これもトレーニングの安定性を向上させます。これらの正規化層の配置は、モデルのトレーニングロスを安定させるのに有効でした。 Gemma 3 Googleの2025年3月にリリースされたGemma 3は、効率的な推論を可能にする「スライディングウィンドウアテンション」を採用しています。同モデルは27億パラメーターで、リソースを必要としないながらも高い性能を発揮します。スライディングウィンドウアテンション: スライディングウィンドウのアテンション領域は、トークンが参照できるコンテクスト範囲を制限することで、KVキャッシュのメモリ使用量を大幅に削減します。 Gemma 3は、全層の中で5つの層に1つのフルアテンション層を配置する5:1の比率を使用し、スライディングウィンドウサイズは1024に縮小されました。正規化層の配置: Gemma 3は、グループクエリアテンション（GQA）モジュールの周りにPre-NormとPost-Normの両方を使用しており、他のモデルとは異なる正規化手法を採用しています。 Mistral Small 3.1 2025年3月にリリースされたMistral Small 3.1 24Bは、いくつかのベンチマークでGemma 3 27Bより良い性能を示しました（数学を除く）。主な理由としては、カスタムトークナイザーやKVキャッシュの最適化が挙げられます。 GQAとKVキャッシュ: Mistral Small 3.1は標準的なGQAを使用し、KVキャッシュのメモリ使用量を減らす一方で、推論速度の向上を追求しています。正規化層: 正規化層の配置は標準的で、GQAの前後にRMSNormレイヤーを置き、推論の効率性と安定性のバランスを取っています。 Llama 4 2025年5月にリリースされたLlama 4は、DeepSeek V3に似たアーキテクチャを採用しています。ただし、いくつかの相違点もあります。アテンションメカニズム: Llama 4はGQAを使用し、DeepSeek V3はMLAを使用します。 Llama 4のGQAは8つのアテンションヘッドを使用し、DeepSeek V3は9つのモジュールを活性化します。 MoE設置: Llama 4は古典的なMoEアプローチを使用し、各トランスフォーマーブロックで交互にMoEモジュールと密集型モジュールを配置します。 Qwen 3 Qwen 3は2025年2月にリリースされ、さまざまなベンチマークで好成績を収めています。7つのデンド型モデルと2つのMoEモデルが用意されており、用途に応じて選択可能です。小さなモデル: Qwen 3 0.6Bは最小の現行世代のオープンウェイトモデルで、ローカルでの推論に最適化されています。小さなパラメータ数ゆえ、ローカル環境での訓練と推論が容易です。 MoEモデル: Qwen 3は30Bと235BのMoEモデルも提供しており、大型モデルの効率的な推論を可能にしています。 SmolLM 3 2025年5月にリリースされたSmolLM 3は、3億パラメーターで優れた性能を発揮します。特筆すべきは、NoPE（No Positional Embeddings）の使用です。 NoPE: NoPEは位置情報を明示的に注入せず、因果的なアテンションマスクを通じてトークンの順序を保持します。訓練中の損失が滑らかになることから、長さの一般的化が良好であることが示されています。 Kimi 2 2025年9月にリリースされたKimi 2は、1兆パラメーターの大規模モデルで、最高のベンチマークスコアを持つオープンウェイトモデルとして話題を呼びました。アーキテクチャ: Kimi 2はDeepSeek V3のアーキテクチャをベースにしており、MoEモジュールでより多くのエキスパートを使用し、MLAでは少ないヘッドを使用しています。新しいMuonオプティマイザーによって、非常に滑らかな訓練損失曲線を達成し、性能向上に貢献しました。業界関係者のコメントと会社概要 DeepSeek V3の開発者チームは、MLAとMoEの組み合わせによる性能と効率性の最適化に成功したとコメントしています。OLMoの開発者は、モデルの透明性とトレーニングの安定性を重視していると述べています。GoogleのGemmaチームは、スライディングウィンドウアテンションによるメモリ効率の改善や、異なるデバイスでの最適化を目指していると説明しています。Qwen 3の開発者チームは、小型モデルとMoEモデルの併用により幅広い利用シーンをサポートすることを目標としています。SmolLM 3の開発者チームは、NoPEによる位置情報の排除が効果的であると報告しています。最後に、Kimi 2チームは新しいOptimizerを採用し、最高のパフォーマンスを達成したと強調しています。これらの LLNs の進歩は、推論効率の向上やモデル性能の最適化に向けた重要な歩みとなっています。今後も、様々なアーキテクチャ的アプローチが引き続き発展していくことが期待されます。

Related Links