Command Palette
Search for a command to run...
DeepSeek-V3.2:オープン型大規模言語モデルの限界を押し広げる
DeepSeek-V3.2:オープン型大規模言語モデルの限界を押し広げる
Abstract
DeepSeek-V3.2を紹介します。本モデルは、高い計算効率と優れた推論能力およびエージェント性能を調和させたものです。DeepSeek-V3.2の主な技術的革新点は以下の通りです。(1)DeepSeekスパースアテンション(DSA):長文コンテキスト環境下でもモデル性能を維持しつつ、計算量を大幅に削減する効率的なアテンション機構としてDSAを導入しました。(2)スケーラブルな強化学習フレームワーク:堅牢な強化学習プロトコルを実装し、後処理段階の計算リソースを拡張することで、DeepSeek-V3.2はGPT-5と同等の性能を達成しました。特に、高計算リソースを活用したバージョン「DeepSeek-V3.2-Speciale」はGPT-5を上回り、Gemini-3.0-Proと同等の推論能力を示しました。また、2025年の国際数学オリンピック(IMO)および国際情報オリンピック(IOI)において、金メダルクラスの成果を達成しました。(3)大規模エージェントタスク合成パイプライン:推論能力をツール利用シナリオに統合するため、大規模に訓練データを体系的に生成する新たな合成パイプラインを開発しました。この手法により、複雑かつインタラクティブな環境における汎化性能および指示追随の堅牢性が顕著に向上し、スケーラブルなエージェント後処理が実現可能です。