HyperAI超神経

4ヶ月前

中国のAIスタートアップ、DeepSeekが、大規模言語モデル（LLM）のスケーリングをより安定かつ効率的に行う新しい学習手法を発表した。同社の共同創業者・梁文峰氏らが共同執筆した論文では、「マニフォールド制約ハイパーパス（mHC）」と名付けられた新アーキテクチャが紹介された。この手法は、モデルが大きくなるにつれて情報の共有が不安定になるリスクを抑えながら、内部通信の豊かさを維持する仕組みを実現。従来の方法では、モデルの規模拡大に伴い性能が低下したり、学習が崩れることがあったが、mHCは計算効率と安定性を両立させるとされる。 Counterpoint ResearchのAIアナリスト・Wei Sun氏は、この手法を「画期的なブレークスルー」と評価。訓練コストの増加がわずかでも、性能の飛躍的向上が見込めると指摘。また、DeepSeekが訓練スタック全体を再設計していることから、独自の研究力と迅速な実験能力を示していると分析。2025年1月に発表したR1推論モデルが、高コストの競合品に匹敵する性能を低コストで実現した「スプートニク的瞬間」を踏まえ、同社の技術的優位性が再確認されたと述べた。 Omdiaのチーフアナリスト・Lian Jye Su氏も、この論文の公開は中国AI業界の自信の表れであり、業界全体に波及効果をもたらす可能性があると語った。オープンネスが戦略的優位性として位置づけられていると強調。この発表は、同社が次期フラッグシップモデル「R2」の開発を進める中で行われており、発表時期に注目が集まっている。R2は当初2025年半ばのリリースを予定していたが、梁氏の性能不満と高級AIチップの不足により延期された。専門家の中には、R2の単独リリースは見込めず、mHC技術が既存のV3モデルに統合され、V4モデルの基盤となる可能性が高いと見る声もある。一方で、Business InsiderのAlistair Barr氏は、DeepSeekの技術力は高いものの、欧米市場での展開力不足が課題として残ると指摘。広範な配信網の欠如が、業界内での影響力拡大の障壁となっている。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

Command Palette

DeepSeek、大規模AIモデルのスケーラビリティを飛躍的に向上する新訓練手法を発表

関連リンク

Command Palette

DeepSeek、大規模AIモデルのスケーラビリティを飛躍的に向上する新訓練手法を発表

関連リンク

Command Palette

DeepSeek、大規模AIモデルのスケーラビリティを飛躍的に向上する新訓練手法を発表

関連リンク

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要