NVIDIA、Nemotron 3 Nano Omni を発表
NVIDIA は 2024 年、単一のモデルでテキスト、画像、音声、動画のすべての multimodal(多摩態)入力をネイティブに処理する「Nemotron 3 Nano Omni」を発表しました。この 300 億パラメータの Mixture-of-Experts モデルは、推論時に 30 億パラメータのみを活性化させ、大規模な知識能力と 30 億パラメータクラスの推論コストを両立させています。これにより、従来手法に比べて 9 倍の同時ユーザー数を同一 GPU で処理可能となり、各リクエストの低コスト化と高性能化を実現しました。従来の方式では音声認識、画像解析、推論など複数のモデルを組み合わせていたため、遅延や文脈の損失が発生していましたが、Nemotron 3 Nano Omni はこれを一モデルで完結させ、OCR、音声認識、動画・音声の統合文脈理解、GUI 解析において優れた性能を発揮します。同モデルは OpenAI と互換性のある API を提供しており、開発者は既存のコードを最小限の変更で移行可能です。推論機能には「reasoning」と呼ばれる思考プロセスをトグルする機能が備わっており、テキスト入力では思考の深さと速度を用途に応じて調整できます。しかし、音声や動画の処理には制限があり、推論機能を無効化し温度パラメータを 0 に設定する必要があります。これは、音声や動画の直感的な処理(文字起こしや記述)には適していますが、複雑な分析的推論には向いていません。このアーキテクチャは、知覚タスクを高速・低コストで処理し、結果を上位の推論モデルへ渡すサブエージェントとして設計されています。NVIDIA はこのモデルをオープンな AI スタックの一部として位置づけ、規制の厳しい業界向けに透明性と監査可能性を確保しています。まだベータ版ではありますが、現実世界の情報を理解するエージェント構築において、従来のモデルスタックの課題を解決する有力な選択肢として注目されています。
