NVIDIA TensorRT Edge-LLM 引领汽车与机器人领域大模型推理新纪元
NVIDIA推出开源C++推理框架TensorRT Edge-LLM,专为汽车与机器人领域的实时大语言模型(LLM)和视觉语言模型(VLM)推理而设计。随着LLM和多模态系统逐步从数据中心走向边缘设备,汽车与机器人开发者亟需在车载或机器人本地运行对话AI、多模态感知和高层规划,以满足低延迟、高可靠性及离线运行的关键需求。 传统LLM推理框架多面向数据中心优化,侧重并发处理与吞吐量,难以满足嵌入式场景的资源限制。TensorRT Edge-LLM正是为此而生,专为NVIDIA DRIVE AGX Thor与Jetson Thor等边缘平台打造,提供轻量、高效、低资源占用的推理解决方案。该框架已随JetPack 7.1发布,开源代码可在GitHub获取。 TensorRT Edge-LLM具备多项先进特性,包括EAGLE-3推测性解码、NVFP4量化支持和分块预填充(chunked prefill),显著提升实时应用性能。其端到端工作流涵盖三个阶段:Python导出管道将Hugging Face模型转换为ONNX格式,支持量化、LoRA适配器和推测性解码;引擎构建器为嵌入式硬件生成优化的TensorRT引擎;C++运行时则在目标设备上执行推理,通过高效的解码循环实现自回归生成。 目前,多家行业领军企业已基于该框架开发产品。博世与微软、NVIDIA合作打造AI座舱,集成语音识别与合成模型,并通过TensorRT Edge-LLM实现本地LLM推理,与云端模型协同工作。ThunderSoft在其AIBOX平台中集成该框架,基于DRIVE AGX Orin实现低延迟的车内交互体验。联发科则在其CX1芯片上利用TensorRT Edge-LLM加速LLM与VLM推理,支持驾驶员与舱内行为监测等前沿应用,并积极参与框架优化。 对于开发者而言,可通过JetPack 7.1下载框架,克隆GitHub仓库,参考快速入门指南完成模型转换、引擎构建与本地运行。NVIDIA DRIVE AGX Thor用户可直接在DriveOS中使用该框架。随着LLM与VLM加速向边缘下沉,TensorRT Edge-LLM为智能设备端的实时AI应用提供了可靠、高效的实现路径。
