HyperAI超神経
Back to Headlines

ドイツチームが開発、DeepSeek-R1T2:速度200%向上でコスト削減も実現

2日前

ドイツチームがDeepSeek-R1T2モデルを開発、速度が200%向上 2025年6月、ドイツのTNG Technology Consulting GmbH(以下、TNG)がDeepSeek R1-0528を基に、速度が200%向上した「DeepSeek-TNG R1T2 Chimera」モデル(以下、R1T2)を開発しました。R1T2は6710億パラメータを持つオープンソースの組み合わせ型モデルで、TNGの大規模モデルシリーズ「Chimera」の最新版です。 R1T2の特徴 DeepSeek-R1-0528は詳細な回答を提供していましたが、R1T2はより簡潔な回答を求めることを目指しています。これにより、R1T2は少ない文字で同じレベルの知能を持ちつつ、より高速に動作します。具体的には、R1T2はDeepSeek-R1-0528の約40%のトークン数だけで反応を生成でき、これは推論時間を60%削減します。 アーキテクチャの進化 R1T2はTNGチームが提案した「集合専門家(AoE、Assembly-of-Experts)」手法を用いて構築されています。これは、複数の事前学習済みモデルの内部パラメータ(重みテンソル)を有選択的に結合して新しいモデルを作成する技術です。AoEは、各タスクの処理に必要なトークン数を削減し、GPU時間やエネルギー消費を抑制することで、インフラコストを節約できるという大きな利点があります。 ミックス・オブ・エキスパート(MoE)との違い TNGのAoEには、「専門家」という用語が含まれいますが、これらは実行時に動的にアクティベートされるわけではなく、結合処理中にモデルの内部コンポーネントとして扱われます。R1T2では、特にDeepSeek-V3-0324の高速な共有層と注意層を保ちつつ、推論専門のルーティング専門テンソルの結合を行なっています。 期待される影響 R1T2の発表後、AI開発者コミュニティからは好意的な反応が寄せられました。Hugging Faceのシニアリーダー、Vaibhav(VB)Srivastav氏はX上で、「素晴らしい!DeepSeek R1T2——R1-0528より200%速く、R1より20%速い。R1T2はMITライセンスに基づいており、Hugging Faceで公開されています」とコメントしています。 企業への恩恵 R1T2が企業にもたらす主なメリットは次の通りです: 1. 低推論コスト: タスクごとに必要なトークン数が少ないため、GPU時間やエネルギーコストが抑制され、特に高スループットやリアルタイム環境では重要です。 2. 高品質な推論: R1-0528などの最高峰モデルの推論能力を保ちつつ、冗長性がなくなり、構造化されたタスク(数学、プログラミング、論理など)に適しています。 3. オープンソース化: MITライセンスにより、自由な展開とカスタマイゼーションが可能で、規制環境や隔離環境でもプライベートホスティングやモデルアライメント、さらなる訓練が可能です。 4. モジュール化の可能性: AoE手法は、モデルのモジュール化構築の将来を示しており、企業は既存モデルの優れた部分を組み合わせて特定の用途向けの変種を作成できます。 注意点 ただし、関数呼び出しやツール使用が必要なシーンでは、R1T2は現在のところ使用が推奨されません。さらに、TNGチームは特に欧州のユーザー向けに、2025年8月2日に施行される「EU AI法」への適合を評価することを建議しています。 中国の技術進歩 この開発は、中国の国内メーカーが国外のベースモデルを使って変種モデルの研究を展開していた傾向が、いまや逆転していることを示唆しています。これは中国の科学技術が世界の先端に追いつき、さらには一部の分野でリードするようになった大趨勢の一端を反映しています。 参考资料: - 関連論文 - Hugging Face - X

Related Links