NVIDIA、自動車・ロボット向けに高速化されたLLM/VLM推論フレームワーク「TensorRT Edge-LLM」をオープンソースで提供
NVIDIAは、自動車およびロボット分野向けにリアルタイム性と信頼性を重視した大規模言語モデル(LLM)と視覚言語モデル(VLM)の推論フレームワーク「TensorRT Edge-LLM」を発表した。この新フレームワークは、データセンター向けの高スループット処理ではなく、エッジ端末での低遅延・オフライン動作を最適化しており、NVIDIA DRIVE AGX ThorとJetson Thor向けに設計されている。開発者は、車両やロボット内部で自然な音声対話、多モーダル認識、高レベルな計画をリアルタイムで実行する必要があるが、従来の推論ツールはエッジ環境に不向きだった。TensorRT Edge-LLMは、C++で構築され、リソース消費を最小限に抑える軽量設計で、生産環境向けに即時導入可能なオープンソースフレームワークとしてGitHubで公開されている(JetPack 7.1対応)。 主な特徴として、EAGLE-3の予測的デコード、NVFP4量子化、チャンク化されたプレフィル処理を搭載。これにより、厳しい電力制約やメモリ制限の中でも高パフォーマンスを実現。ベンチマークでは、既存のvLLMなどと比較して、推論速度と効率性で優位性を発揮している。 自動車業界の大手企業がすでに採用。ボッシュはマイクロソフト・NVIDIAと協業し、音声認識とTTSモデルを組み合わせ、TensorRT Edge-LLMでLLM推論を実行するAIコックピットを開発。ThunderSoftはNVIDIA DRIVE AGX Orinを搭載したAIBOXに同フレームワークを統合し、低遅延の乗員支援機能を実現。メディアテックは自社SoC CX1にTensorRT Edge-LLMを搭載し、ドライバー監視やインテリアAIインターフェースの実現を進め、フレームワーク開発にも貢献している。 TensorRT Edge-LLMのワークフローは、Pythonによるモデル変換(ONNX形式への変換、量子化、LoRA対応)、TensorRTエンジンの生成、C++ランタイムによる推論実行の3段階。ユーザーはHugging Faceモデルを入手し、簡易な手順でエッジデバイスで実行可能。NVIDIA DRIVE AGX ThorユーザーはDriveOSリリースパッケージに含まれるため、即時利用可能。 AIがエッジへ移行する中で、TensorRT Edge-LLMは、モデルからリアルタイム実行までをスムーズにサポートする基盤となる。開発者はGitHubから入手し、すぐに実験やプロダクト開発を開始できる。
