HyperAI

3ヶ月前

NVIDIA は「Nemotron 3 Nano 4B」と呼ばれる、40 億パラメータを持つ小型言語モデルを正式に発表した。このモデルは、Mamba と Transformer を組み合わせたハイブリッドアーキテクチャを採用しており、効率的な推論と高い精度を両立させた。特にエッジデバイスでのローカル AI 運用を想定しており、NVIDIA Jetson（Thor や Orin Nano）や GeForce RTX、DGX Spark などの GPU ベースのプラットフォーム上で動作するように最適化されている。これにより、データプライバシーの向上、応答速度の高速化、そして推論コストの削減が可能になる。同モデルは既存の 9B バージョンから、NVIDIA 独自の「Nemotron Elastic」技術を用いて剪定と蒸留を行い開発された。この技術は、ラウトラーと呼ばれるルーターがモデルの構造を自動的に最適化し、必要な機能を保ちつつサイズを大幅に圧縮する。精度の回復には、短文脈と長文脈の 2 段階に分けた知識蒸留、そして数学、コーディング、指示従順性などを多様なドメインで訓練した教師付き微調整（SFT）が実施された。さらに、指示の遵守やツール呼び出し能力を強化するため、3 つの段階にわたる強化学習パイプラインが適用されている。エッジデバイスでの運用を支援するため、FP8 と 4 ビット量子化（Q4_K_M GGUF）形式でリリースされている。特に Jetson Orin Nano 8GB 上でのテストでは、Llama.cpp を使用した Q4_K_M 版は、従来の 9B モデルと比較して推論スループットが最大 2 倍向上し、1 秒あたり 18 トークンを生成できることを確認した。このモデルはオープンソースとして提供され、Hugging Face をはじめとする主要な推論エンジン（Transformers、vLLM、TRT-LLM など）を通じて利用可能だ。開発者は、ドメイン固有のタスクに合わせてカスタマイズやファインチューニングを行うことができ、特にローカルでの会話型エージェントやゲーム内推論などのユースケースが期待されている。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

Command Palette

Nemotron 3 Nano 4B、小型ハイブリッドモデルでローカル AI を効率化

関連リンク

Command Palette

Nemotron 3 Nano 4B、小型ハイブリッドモデルでローカル AI を効率化

関連リンク

Command Palette

Nemotron 3 Nano 4B、小型ハイブリッドモデルでローカル AI を効率化

関連リンク

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう