HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-V3.2:オープン型大規模言語モデルの限界を押し広げる

Abstract

DeepSeek-V3.2を紹介します。本モデルは、高い計算効率と優れた推論能力およびエージェント性能を調和させたものです。DeepSeek-V3.2の主な技術的革新点は以下の通りです。(1)DeepSeekスパースアテンション(DSA):長文コンテキスト環境下でもモデル性能を維持しつつ、計算量を大幅に削減する効率的なアテンション機構としてDSAを導入しました。(2)スケーラブルな強化学習フレームワーク:堅牢な強化学習プロトコルを実装し、後処理段階の計算リソースを拡張することで、DeepSeek-V3.2はGPT-5と同等の性能を達成しました。特に、高計算リソースを活用したバージョン「DeepSeek-V3.2-Speciale」はGPT-5を上回り、Gemini-3.0-Proと同等の推論能力を示しました。また、2025年の国際数学オリンピック(IMO)および国際情報オリンピック(IOI)において、金メダルクラスの成果を達成しました。(3)大規模エージェントタスク合成パイプライン:推論能力をツール利用シナリオに統合するため、大規模に訓練データを体系的に生成する新たな合成パイプラインを開発しました。この手法により、複雑かつインタラクティブな環境における汎化性能および指示追随の堅牢性が顕著に向上し、スケーラブルなエージェント後処理が実現可能です。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DeepSeek-V3.2:オープン型大規模言語モデルの限界を押し広げる | Papers | HyperAI超神経