HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、視覚・音声・言語を統合した「Nemotron 3 Nano」を発表

NVIDIA は本日、視覚・音声・言語機能を統合したオープンなマルチモーダルモデル「Nemotron 3 Nano Omni」を発表しました。従来の AI エージェントは、視覚、音声、言語処理のために複数の別個のモデルを使用する必要があり、データ転送に伴う遅延や文脈の断絶が発生していました。しかし、新しいモデルはこれらを単一のシステムに統合することで、動画、音声、画像、テキストを超えた高度な推論能力を実現し、より高速で正確な応答を可能にします。同モデルは、30B-A3B 形式のハイブリッド混合専門家アーキテクチャを採用しており、視覚エンコーダーと音声エンコーダーを内部に統合することで、個別の知覚モデルを不要にし、スケーラビリティを大幅に向上させています。その結果、類似の対話機能を備えた他のオープンなオールマイティモデルと比較して、最大 9 倍のスループット向上を実現し、コスト削減と効率化を両立させています。このモデルは複雑な文書知能、ビデオ、音声理解に関する 6 つのリーダーボードで首位を獲得しています。現在、Aible、Palantir、H 社、Foxconn など多くの企業がすでに採用しており、Dell Technologies、Oracle、Infosys なども評価を検討しています。特に H 社の CEO は、同モデルを用いることでフル HD スクリーン録画を以前不可能だった速度で解釈できるようになり、エージェントがデジタル環境をリアルタイムで認識・相互作用する根本的な変化が起きたと述べています。Nemotron 3 Nano Omni は、コンピュータ操作エージェント、文書知能、音声動画の理解など、多様なユースケースに対応しています。また、オープンな重み、データセット、学習技術を公開しており、組織は NeMo ツールを使用して独自の要件に合わせてカスタマイズできます。規制対応やデータローカライゼーション要件を満たす環境でも柔軟にデプロイでき、ローカルシステムからクラウド、データセンターまで広範な環境での運用が可能です。同モデルは現在、Hugging Face や OpenRouter、NVIDIA NIM マイクロサービスを通じて利用可能で、過去 1 年間の NEMOTRON ファミリーのダウンロード数が 5,000 万回を超え、その勢いを増しています。

関連リンク