HyperAI超神经

NVIDIA推出开源C++推理框架TensorRT Edge-LLM，专为汽车与机器人领域的实时大语言模型（LLM）和视觉语言模型（VLM）推理而设计。随着LLM和多模态系统逐步从数据中心走向边缘设备，汽车与机器人开发者亟需在车载或机器人本地运行对话AI、多模态感知和高层规划，以满足低延迟、高可靠性及离线运行的关键需求。传统LLM推理框架多面向数据中心优化，侧重并发处理与吞吐量，难以满足嵌入式场景的资源限制。TensorRT Edge-LLM正是为此而生，专为NVIDIA DRIVE AGX Thor与Jetson Thor等边缘平台打造，提供轻量、高效、低资源占用的推理解决方案。该框架已随JetPack 7.1发布，开源代码可在GitHub获取。 TensorRT Edge-LLM具备多项先进特性，包括EAGLE-3推测性解码、NVFP4量化支持和分块预填充（chunked prefill），显著提升实时应用性能。其端到端工作流涵盖三个阶段：Python导出管道将Hugging Face模型转换为ONNX格式，支持量化、LoRA适配器和推测性解码；引擎构建器为嵌入式硬件生成优化的TensorRT引擎；C++运行时则在目标设备上执行推理，通过高效的解码循环实现自回归生成。目前，多家行业领军企业已基于该框架开发产品。博世与微软、NVIDIA合作打造AI座舱，集成语音识别与合成模型，并通过TensorRT Edge-LLM实现本地LLM推理，与云端模型协同工作。ThunderSoft在其AIBOX平台中集成该框架，基于DRIVE AGX Orin实现低延迟的车内交互体验。联发科则在其CX1芯片上利用TensorRT Edge-LLM加速LLM与VLM推理，支持驾驶员与舱内行为监测等前沿应用，并积极参与框架优化。对于开发者而言，可通过JetPack 7.1下载框架，克隆GitHub仓库，参考快速入门指南完成模型转换、引擎构建与本地运行。NVIDIA DRIVE AGX Thor用户可直接在DriveOS中使用该框架。随着LLM与VLM加速向边缘下沉，TensorRT Edge-LLM为智能设备端的实时AI应用提供了可靠、高效的实现路径。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

NVIDIA TensorRT Edge-LLM 引领汽车与机器人领域大模型推理新纪元

相关链接

Command Palette

NVIDIA TensorRT Edge-LLM 引领汽车与机器人领域大模型推理新纪元

相关链接

Command Palette

NVIDIA TensorRT Edge-LLM 引领汽车与机器人领域大模型推理新纪元

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化