NVIDIA、エッジAIを加速する高精度推論モデル「Nemotron Nano 2 9B」をリリース
NVIDIAは、エッジ端末でも高性能な推論が可能な新AIモデル「Nemotron Nano 2 9B」を発表した。このモデルは、企業向けの高度な推論とエージェント型AIに特化しており、ハイブリッドなTransformer–Mambaアーキテクチャを採用。これにより、長文の思考プロセスを効率的に処理しながら、従来のTransformerモデルよりも最大6倍のスループットを実現。特に、低遅延が求められるエッジデバイスやリアルタイムアプリケーションに最適化されている。 特筆すべきは「Thinking Budget(思考予算)」機能。開発者はモデルが内部で行う「思考」の長さを自由に制御でき、不要なトークン生成を抑制することで、推論コストを最大60%削減可能。精度を維持しつつ、処理速度とコストのバランスを最適化できる点が、実世界の導入に大きな利点をもたらす。 Nemotron Nano 2 9Bは、数学、プログラミング、科学などの推論タスクで同サイズクラスで最も高い精度を達成。また、指示理解やツール呼び出しの能力も優れており、AIエージェントの自律的タスク遂行に適している。モデルは、12Bの基盤モデルを圧縮・微調整した結果、NVIDIA A10G GPUのメモリ制限(22 GiB)内に収まる9Bパラメータに仕上げられている。 開発者向けには、vLLMサーバーでの起動や、Pythonによる思考予算制御の実装例が提供されており、実際の利用が容易。例えば、2+2の計算を「8192トークン」の思考予算で制限し、結果を出力するコードが実行可能。このように、開発者は用途に応じて柔軟にパラメータを調整できる。 NVIDIAは、このモデルの重みや学習データ、トレーニング手法をオープンソースとして公開。開発コミュニティがカスタマイズや改良を進められる環境を整えている。今後はNVIDIA NIMを通じたダウンロード・デプロイも予定されている。 要するに、Nemotron Nano 2 9Bは、エッジAIにおける精度と効率の両立を実現する画期的なモデルであり、AIエージェントの実用化を加速する重要なツールとなる。