Nemotron 3 Nano 4B、小型ハイブリッドモデルでローカル AI を効率化
NVIDIA は「Nemotron 3 Nano 4B」と呼ばれる、40 億パラメータを持つ小型言語モデルを正式に発表した。このモデルは、Mamba と Transformer を組み合わせたハイブリッドアーキテクチャを採用しており、効率的な推論と高い精度を両立させた。特にエッジデバイスでのローカル AI 運用を想定しており、NVIDIA Jetson(Thor や Orin Nano)や GeForce RTX、DGX Spark などの GPU ベースのプラットフォーム上で動作するように最適化されている。これにより、データプライバシーの向上、応答速度の高速化、そして推論コストの削減が可能になる。 同モデルは既存の 9B バージョンから、NVIDIA 独自の「Nemotron Elastic」技術を用いて剪定と蒸留を行い開発された。この技術は、ラウトラーと呼ばれるルーターがモデルの構造を自動的に最適化し、必要な機能を保ちつつサイズを大幅に圧縮する。精度の回復には、短文脈と長文脈の 2 段階に分けた知識蒸留、そして数学、コーディング、指示従順性などを多様なドメインで訓練した教師付き微調整(SFT)が実施された。さらに、指示の遵守やツール呼び出し能力を強化するため、3 つの段階にわたる強化学習パイプラインが適用されている。 エッジデバイスでの運用を支援するため、FP8 と 4 ビット量子化(Q4_K_M GGUF)形式でリリースされている。特に Jetson Orin Nano 8GB 上でのテストでは、Llama.cpp を使用した Q4_K_M 版は、従来の 9B モデルと比較して推論スループットが最大 2 倍向上し、1 秒あたり 18 トークンを生成できることを確認した。このモデルはオープンソースとして提供され、Hugging Face をはじめとする主要な推論エンジン(Transformers、vLLM、TRT-LLM など)を通じて利用可能だ。開発者は、ドメイン固有のタスクに合わせてカスタマイズやファインチューニングを行うことができ、特にローカルでの会話型エージェントやゲーム内推論などのユースケースが期待されている。
