Back to Headlines

中国科学院が国内GPUで実現した類脑脈衝大モデル「瞬悉1.0」を公開——超長シーケンス処理で100倍の高速化を達成

10日前

中国科学院自動化研究所の李国齊(り こくき)・徐波研究チームが、内生複雑性理論に基づく新概念の類脳脈衝大モデル「瞬悉1.0(SpikingBrain-1.0)」を発表した。同モデルは、沐曦MetaX社の国产千カ所GPUクラスタ上で完全なトレーニングと推論が実現され、超長シーケンス処理において従来のTransformerモデルと比較して数量級の効率・速度向上を達成。これは、中国初の非Transformer型大規模モデルアーキテクチャの実用化に向けた重要な一歩であり、国内自主・信頼性の高いAI基盤技術の構築可能性を示した。 現在広く使われているTransformerモデルは、ネットワーク規模やデータ量の拡大(Scaling Law)によって性能を向上させるが、その基本計算単位は単純な点ニューロンであり、これは「外生複雑性」に基づくアプローチとされる。しかし、このアーキテクチャには、シーケンス長の増加に伴いトレーニングコストが平方級に増加し、推論時のメモリ使用量も線形に増大するという根本的な課題がある。これにより、長文処理や大規模文書解析などの実用シーンでの応用が制限されていた。 研究チームは、脳の神経細胞が持つ内部の複雑な動力学を模倣し、「内生複雑性」を核とした新アーキテクチャを構築。脈衝神経ネットワーク(SNN)と線形注意力機構の理論的関係を明確にし、既存の線形注意力が樹突計算の簡略化であることを解明。この理論を基に、7Bパラメータの「SpikingBrain-1.0-7B」と、12Bの活性パラメータを持つ76B規模の「SpikingBrain-1.0-76B」モデルを構築。また、沐曦MetaXのC550 GPUクラスタ向けに、効率的なトレーニング・推論フレームワーク、Triton算子ライブラリ、モデル並列戦略、集団通信プリミティブを整備した。 性能面では、以下の4点で顕著な進展を達成した。第一に、極少量データでも効率的な学習が可能。トレーニングの計算量が線形または近似線形であり、主流モデルの約2%のデータ量で、MMLUやCMMLU、ARCなど多様な言語理解・常識推論タスクで同等の性能を達成。第二に、推論速度の数量級向上。脈衝のイベント駆動特性を活かし、100万トークンのシーケンスでもTTFT(最初のトークン生成時間)が26.5倍高速化。400万トークンでは100倍以上の加速を実現。スマートフォンCPU上で64k~256k長のシーケンス処理でも、Llama3.2と比較して4~15倍の高速化を実現。第三に、国内GPU環境での完全自立実現。トレーニング・推論フレームワーク、算子ライブラリ、並列戦略をすべて国内技術で構築し、自主・信頼性の高い大規模モデル開発生態系の構築が可能となった。第四に、動的閾値脈衝化による多スケール疎結合機構。7Bモデルで69.15%の疎結合度を達成、長文における脈衝発火率は1.85%にまで低減し、低消費電力での運用を実現。 本モデルは、法律・医学文書解析、複雑なマルチエージェントシミュレーション、高エネルギー物理学実験、DNA配列解析、分子動力学シミュレーションなど、超長シーケンスが必要な分野で顕著な効率的性能を発揮する可能性を示している。これは、AIの次世代技術として、Transformerに代わる新たなアーキテクチャの道筋を示すものであり、神経形態計算理論や低消費電力チップ設計の進展にも貢献する。研究チームは、SpikingBrain-1.0-7Bのモデルコード、中英文技術報告、および76BモデルのテストアクセスURLを公開しており、広く研究・開発コミュニティに提供されている。

Related Links