HyperAIHyperAI

Command Palette

Search for a command to run...

Jet-Nemotron:後段ニューラルアーキテクチャ探索を用いた効率的な言語モデル

Yuxian Gu Qinghao Hu Shang Yang Haocheng Xi Junyu Chen Song Han Han Cai

概要

本稿では、ハイブリッドアーキテクチャを採用した新たな言語モデル族「Jet-Nemotron」を紹介する。Jet-Nemotronは、従来のフルアテンションモデルと同等またはそれ以上の精度を達成しつつ、生成スループットを著しく向上させている。Jet-Nemotronは、効率的なモデル設計を可能にする新しいニューラルアーキテクチャ探索パイプライン「PostNAS(後期神経アーキテクチャ探索)」を用いて開発された。従来の手法とは異なり、PostNASは事前学習済みのフルアテンションモデルを出発点とし、そのMLP重みを固定することで、アテンションブロックの設計を効率的に探索できる。このパイプラインは以下の4つの主要な構成要素からなる:(1)最適なフルアテンション層の配置および削除の学習、(2)線形アテンションブロックの選定、(3)新たなアテンションブロックの設計、(4)ハードウェアに配慮したハイパーパラメータ探索。本研究で提案するJet-Nemotron-2Bモデルは、Qwen3、Qwen2.5、Gemma3、Llama3.2と比較して、包括的なベンチマークセットにおいて同等または優れた精度を達成しつつ、生成スループットで最大53.6倍、プリフィル(prefilling)処理で最大6.1倍の高速化を実現した。また、パラメータ数が150億(合計)・22億(アクティブ)に達する最新の高度なMoEフルアテンションモデル(DeepSeek-V3-SmallやMoonlightなど)と比較しても、MMLUおよびMMLU-Proにおいてより高い精度を達成している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています