HyperAI

NVIDIAは、NVIDIA GTC DCで「Nemotron」ファミリーの新モデル群を発表し、専門性を重視したエージェント型AI（Agentic AI）の開発を加速するエコシステムを提供。このエコシステムは、言語・視覚モデルが計画、推論、情報検索、セーフティガードrailを連携して動作する仕組みで、ドメイン特化のワークフロー、リアルワールド展開、コンプライアンス対応に最適化されている。開発者が必要とするのは、微調整可能なオープンモデル、信頼性の高いデータセット、最適な精度と計算効率を実現する「レシピ」、そしてスケーラブルな推論基盤。NVIDIAは、これら3つの要件を満たす新製品を一挙にリリース。まず、NVIDIA Nemotron Nano 3は320億パラメータのMoE（Mixture of Experts）モデルで、実行時に36億パラメータが活性化。同サイズの従来モデルより高いスループットを実現し、科学的推論、コード生成、数学、ツールコールなどのベンチマークで優れた精度を示す。MoEアーキテクチャにより、計算コストと遅延が低減され、効率的なエージェント動作が可能になる。 Nemotron Nano 2 VLは120億パラメータのマルチモーダル推論モデルで、OCR Bench V2でトップ性能。画像、テキスト、表、動画を統合的に理解し、レポート作成、動画キュレーション、メディアアセットの検索に活用できる。ハイブリッドMamba-TransformerアーキテクチャとFP8演算、コンテキスト並列処理により、長文や長動画処理でも高速かつ高精度。特に「効率的動画サンプリング（EVS）」技術により、静止フレームを自動除去し、トークンの冗長性を削減。これにより、最大2.5倍のスループット向上を実現。 Nemotron Parse 1.1は10億パラメータのドキュメント解析モデルで、画像から構造化されたテキストと表を抽出。PubTabNetベンチマークでトップクラスの精度を達成し、検索エンジンやLLMの訓練データ改善に貢献。 RAG（Retrieval-Augmented Generation）向けにNemotron RAGを提供。企業の機密データを安全に扱いながらリアルタイムのビジネスインサイトを生成可能。ViDoRe、MTEB、MMTEBなど主要ベンチマークで優位性を示し、NVIDIA AI-QやRAGブループリントと連携して本格的な導入を支援。安全面では、Llama 3.1ベースの「Nemotron Safety Guard 8B V3」をリリース。23の地域文化に適合した38万件以上のデータで微調整され、9言語（日本語含む）で不適切コンテンツを高精度で検出（84.2％の分類精度）。LLM駆動の文化的適応と一貫性フィルタリングにより、誤検出を低減。さらに、NeMo Evaluator SDKとAgent Toolkitをオープンソース化。動的ワークフローを評価するProfBenchや、ハイパーパラメータ自動最適化機能を備え、開発効率を飛躍的に向上。Hugging FaceやNVIDIA NIM、Baseten、Replicateなどでの提供により、開発から本番環境への移行が容易に。 NVIDIA Nemotronは、オープン性と実用性を両立したAIエコシステムとして、企業や開発者が安全で効率的なエージェント型AIを構築するための基盤を提供している。

関連リンク

関連リンク

関連リンク

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

Command Palette

NVIDIA、AIエージェント開発向けに新たな視覚モデルとセキュリティ機能を搭載したNemotron Nano 2 VLを発表

関連リンク

Command Palette

NVIDIA、AIエージェント開発向けに新たな視覚モデルとセキュリティ機能を搭載したNemotron Nano 2 VLを発表

関連リンク

Command Palette

NVIDIA、AIエージェント開発向けに新たな視覚モデルとセキュリティ機能を搭載したNemotron Nano 2 VLを発表

関連リンク

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。