HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek V4 が NVIDIA Blackwell で構築され GPU エンドポイントを活用

DeepSeek は第 4 世代のフラッグシップモデル「DeepSeek-V4-Pro」および「DeepSeek-V4-Flash」を発表しました。これらは最大 100 万トークンのコンテキストウィンドウをサポートし、コード生成、文書分析、検索、エージェント AI ワークフローに向けた高度な推論を可能にします。V4-Pro は総パラメータ数 1.6 兆、有効パラメータ数 490 億で、複雑な推論や長期コンテキストエージェントに最適化されています。一方、V4-Flash は総パラメータ 2840 億、有効パラメータ 130 億と小型化され、高速処理や要約、ラウティングに重点を置いています。両モデルとも MIT ライセンスで提供され、最大 38 万トークンのアウトプット長に対応します。 アーキテクチャ面では、V3 よりもトランスフォーマーの注意機構と KV キャッシュメモリの効率を大幅に改善し、トークンあたりの計算量を 73%、メモリ負荷を 90% 削減しました。これは、システム指示、ツール出力、コード、ログなど多様な情報を保持する次世代エージェントにとって不可欠な進化です。特にハイブリッド注意機構の採用により、従来のトランスフォーマーブロック内での計算オーバーヘッドとメモリフットプリントを劇的に削減しています。 NVIDIA Blackwell プラットフォームを組み合わせることで、これらのモデルは新たな性能水準を達成します。具体的には、GB200 NVL72 上での DeepSeek-V4-Pro のテストでは、ユーザーあたり秒間 150 トークン以上の推論速度が実現されました。これは 100 万トークンという長大なコンテキスト処理と、兆単位の計算能力を必要とする推論の新たな時代を支えるものです。NVIDIA は、vLLM や SGLang といった主要なオープンソースライブラリとの連携を通じて、低遅延、バランス型、高スループット、あるいはプリフィル・デコードの分離など、多様なデプロイ要件に対応するレシピを提供しています。 開発者は、NVIDIA の GPU アクセラテッドエンドポイント「build.nvidia.com」を通じてすぐにプロトタイピングを開始できます。また、NVIDIA NIM を利用することで、既存の API パターンを活かした自己ホスト環境での展開も可能です。DeepSeek はオープンソースエコシステムへの貢献を継続しており、データセンターからマイクロサービス、ファインチューニングに至るまでの幅広い選択肢を提供しています。今後の競争優位性は、モデルの選択から、これらの高性能モデルをいかに低コストかつ大規模に展開・スケーラブルにするかというインフラストラクチャ戦略へとシフトしています。

関連リンク

DeepSeek V4 が NVIDIA Blackwell で構築され GPU エンドポイントを活用 | 人気の記事 | HyperAI超神経