NVIDIA、物理AIと自律型ロボットを駆動する新「TensorRT エッジ LLM」を発表
NVIDIA は、自律走行車や二足歩行ロボットなどの次世代物理的 AI 開発を加速させるため、エッジデバイス向け大規模言語モデル推論ランタイム「TensorRT Edge-LLM」の最新バージョンを公開しました。このリリースは、組み込みプラットフォームにおける厳格な電力制約と低遅延要件を維持しつつ、高忠実度の推論やリアルタイム多モーダル相互作用を実現することを目的としています。新しいバージョンは、NVIDIA DRIVE AGX Thor や Jetson Thor などのプラットフォーム向けに、エキスパートの混合(MoE)アーキテクチャや、物理的 AI 専用のオープンプランニングモデル「Cosmos Reason 2」、組み込み音声処理用の「Qwen3-TTS」および「Qwen-ASR」モデルのサポートを強化しました。 エッジでの効率的な推論においては、MoE アーキテクチャを活用することで、Qwen3 MoE のような大規模モデルを効率的に実行できます。これは、トークンごとに専門パラメータの一部のみを活性化することで、巨大なモデルの推論能力を活用しつつ、推論遅延と計算負荷を小型モデルレベルに抑える技術です。また、NVIDIA Nemotron 2 Nano への対応により、エッジチップセット上で「システム 2(深い推論)」を可能にします。このモデルは独特な Hybrid Mamba-2-Transformer 構造を採用し、メモリ使用量を大幅に削減しながら、複雑なタスク用の長いコンテキストウィンドウを維持しています。これにより、車両内の AI アシスタントやロボットの対話エージェントが、複雑な推論と即時の応答をシームレスに切り替えることが可能になります。 音声対話においても、従来の ASR、LLM、TTS のカスケード処理に比べ遅延を大幅に削減し、自然な音声合成を低遅延で実現します。これは、自動運転車での運転手との円滑な対話や、ヒューマノイドロボットの人間らしい音声インタラクションに不可欠です。特にロボティクス分野では、Cosmos Reason 2 のサポートにより、物理的な常識や因果関係に基づいた意思決定が可能になり、人間のアノテーションなしに世界のダイナミクスを理解し、安全な行動計画を立てることができるようになります。 さらに、自動運転生産の革新として、モジュール型スタックからエンドツーエンドの VLA(Vision-Language-Action)モデルへの移行が加速しています。NVIDIA Alpamayo のオープンモデルシリーズと連携し、従来の風景記述を超えて、正確な軌道計画を直接的に生成する能力を提供します。TensorRT Edge-LLM は、Python 依存を排除した純粋な C++ ランタイムとして、予測可能なメモリフットプリントを確保し、自動車およびロボット業界のミッションクリティカルなニーズに応える基盤となっています。開発者は、最新リリースや GitHub リポジトリを通じて、MoE や Alpamayo の例を活用し、次世代の自律機械の構築を開始できます。
