HyperAI

NVIDIA は、従来の自己回帰型大規模言語モデルの限界を打破する「Nemotron-Labs Diffusion」と呼ばれる新しい拡散言語モデルファミリーを発表しました。現在の AI 業界では、テキスト生成が一つずつトークンを順番に処理する自己回帰方式が主流ですが、これにはメモリ読み込みの遅延や生成後の修正不可能という欠点があり、特にリアルタイム性が求められるアプリケーションやバッチサイズが小さい場合に処理速度のボトルネックとなります。Nemotron-Labs Diffusion は、複数のトークンを並列に生成した後、段階的に refined する拡散アプローチを採用することで、GPU の計算能力をより効果的に活用し、高速化と生成品質の向上を実現しました。同モデルファミリーには、30 億、80 億、140 億のパラメータを持つテキスト生成モデルと、80 億の視覚・言語モデルが含まれており、いずれも商用利用が可能なオープンライセンス下で提供されます。さらに、学習に必要なコードも NVIDIA Megatron Bridge フレームワークを通じて公開されます。最大の特徴は、一つのモデルで自己回帰モード、拡散モード、自己推論モードの三つの生成モードを切り替えて使用できる点です。自己回帰モードは既存のワークフローとの互換性を維持し、拡散モードはバッチ処理による高速化を、自己推論モードは拡散でドラフトした候補を自己回帰で検証するハイブリッド方式で、予測不可能なバッチサイズや単一クエリでも最速の生成速度を発揮します。性能評価では、80 億パラメータ版は Qwen3-8B より平均 1.2 ポイントの精度向上を達成しました。推論速度に関しては、拡散モードが自己回帰モデルの 2.6 倍、自己推論モードでは線形方式で 6 倍、二次方式で 6.4 倍の効率（1 回 forwards パスあたりのトークン生成数）を実現しています。トレーニングでは、既存の自己回帰モデルに拡散能力を追加する手法を採り、1.3 トリリオントークンの事前学習データと 450 億トークンの教師あり微調整データを用いて学習されました。SGLang 経由でのデプロイが不久後に予定されており、設定の変更だけで異なる生成モードを切り替えることが可能になります。これにより、開発者はアプリケーションを変更せずに、テキストのドラフト作成、修正、検証、加速をシームレスに行えるようになります。

関連リンク

関連リンク

関連リンク

あと1日！Zhiyuan、TileRT、Tencent、Huawei、Zhiyuan Innovationが集結し、AIコンパイルの多層的な協調最適化を探求します。

あと1日！Zhiyuan、TileRT、Tencent、Huawei、Zhiyuan Innovationが集結し、AIコンパイルの多層的な協調最適化を探求します。

Command Palette

Nemotron-Labs が光速テキスト生成の拡散言語モデルを開発

関連リンク

Command Palette

Nemotron-Labs が光速テキスト生成の拡散言語モデルを開発

関連リンク

Command Palette

Nemotron-Labs が光速テキスト生成の拡散言語モデルを開発

関連リンク

あと1日！Zhiyuan、TileRT、Tencent、Huawei、Zhiyuan Innovationが集結し、AIコンパイルの多層的な協調最適化を探求します。

あと1日！Zhiyuan、TileRT、Tencent、Huawei、Zhiyuan Innovationが集結し、AIコンパイルの多層的な協調最適化を探求します。