HyperAIHyperAI

Command Palette

Search for a command to run...

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化的全面自动化

NVIDIA近日推出TensorRT LLM的全新Beta功能——AutoDeploy,旨在自动化大语言模型(LLM)的推理优化流程。传统上,将一个新模型部署为高性能推理引擎需大量手动工作,包括KV缓存管理、GPU权重分片、算子融合和硬件调优。AutoDeploy通过编译器驱动的流程,将模型作者从这些繁琐任务中解放出来,实现“一次描述模型,自动完成优化”。 AutoDeploy可直接从Hugging Face的PyTorch模型出发,自动提取计算图,并通过一系列自动化变换生成针对TensorRT LLM优化的推理图。它支持超过100种文本到文本的LLM,初步支持视觉语言模型(VLMs)和状态空间模型(SSMs),并已成功用于NVIDIA Nemotron 3 Nano等新模型的快速上线。 其核心技术包括:利用torch.export捕获标准化图结构,通过模式匹配将注意力、MoE、RoPE等常见模块统一为可识别的自定义算子,确保优化流程的一致性;在后续阶段自动执行算子融合、多GPU分片、性能调优和高效内核插入;支持灵活的注意力机制与缓存管理,无缝集成到TensorRT LLM的缓存系统中。 AutoDeploy还具备强大的可扩展性,允许模型作者通过自定义操作注入特定优化内核,而编译器不会修改这些关键部分。同时,它与torch.compile、CUDA Graph、多流优化等工具链深度集成,实现完整的运行时优化,包括重叠调度、分块预填充、推测性解码等功能。 在性能测试中,AutoDeploy在单张NVIDIA Blackwell DGX B200 GPU上,使Nemotron 3 Nano的吞吐量达到每秒350个token(单用户),高吞吐场景下可达13,000输出token/秒,与手动调优的基线性能相当。对于Nemotron-Flash这一混合架构模型,AutoDeploy在数日内完成部署与优化,其性能甚至超越广泛优化的Qwen2.5 3B模型。 AutoDeploy标志着推理优化正从“模型作者负责”转向“编译器与运行时负责”,显著缩短模型上线周期,提升研发效率。该功能特别适用于快速迭代的开源模型和研究型架构,实现从“手动重写”到“编译驱动”的范式转变。开发者可通过官方文档和示例脚本快速体验并参与其演进。

相关链接

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化的全面自动化 | 热门资讯 | HyperAI超神经