NVIDIA、専用AIエージェント開発を加速する新モデル群を発表 Nemotronシリーズに視覚言語・RAG・安全ガードレールモデルを追加
NVIDIAは、専門的なAIエージェントの開発を支援する新モデル群「Nemotron」を発表した。GTC DCで公開されたこの技術は、推論、視覚理解、情報取得、安全制御といった機能を統合したエコシステムを提供し、開発者がドメイン特化型のAIシステムを構築できるようにする。主なモデルは4つで、それぞれ異なる役割を果たす。 まず、NVIDIA Nemotron Nano 3は320億パラメータのMoE(Mixture of Experts)モデルで、実際の計算に必要なパラメータは36億に抑えられる。これにより、大規模な探索や自己反省を効率的に行い、科学的推論、プログラミング、数学、ツール呼び出しなどのベンチマークで高い精度を発揮。計算コストとレイテンシを削減できる点が特徴だ。 次に、Nemotron Nano 2 VLは120億パラメータのマルチモーダルモデルで、OCR Bench V2でトップクラスの性能を示す。テキスト、画像、表、動画を統合的に処理でき、ドキュメント解析や動画理解に最適。ハイブリッドMamba-Transformerアーキテクチャと、1100万件以上の高品質データで学習されており、長文や長時間動画の処理でも効率的。特に「効率的動画サンプリング(EVS)」技術により、無駄なフレームを除去し、2.5倍のスループットを実現。FP4、FP8、BF16での量子化に対応し、vLLMやTRT-LLMで高速推論が可能。 Nemotron Parse 1.1は10億パラメータのドキュメントパーサーで、画像からテキスト・表・レイアウトを正確に抽出。PubTabNetベンチマークでトップ性能を記録し、検索エンジンやLLMの訓練データ改善に活用できる。 情報取得を強化するNemotron RAGは、企業の機密データを安全に扱いながらリアルタイムのインサイトを生成。多言語対応の埋め込みモデルは、ViDoReやMTEBなど主要ベンチマークで優位性を示し、AIコ・ピロットやカスタマーサポートAIの基盤となる。 安全面では、Llama 3.1 Nemotron Safety Guard 8B V3が登場。38万件以上の多文化データで微調整され、23の安全カテゴリ・9言語(アラビア語、ヒンディ語、日本語など)に対応。有害コンテンツ検出精度84.2%を達成。LLMによる文化適応と一貫性フィルタリングで、誤検出を低減。単一GPUで動作可能で、NeMo Guardrailsと連携してリアルタイム監視が可能。 さらに、NeMo Evaluator SDKとAgent Toolkitもオープンソース化。動的なエージェントワークフローを評価するProfBenchや、自動最適化機能「Agent Optimizer」で開発効率が飛躍的に向上。 NVIDIAは、Hugging FaceやNVIDIA NIM、Baseten、Deep Infraなどでの提供を開始。開発者は、NVIDIAの公式サイトやGitHubでモデルを入手し、AIエージェントの構築を即座に開始できる。
