HyperAI

NVIDIA近日推出TensorRT LLM的全新Beta功能——AutoDeploy，旨在自动化大语言模型（LLM）的推理优化流程。传统上，将一个新模型部署为高性能推理引擎需大量手动工作，包括KV缓存管理、GPU权重分片、算子融合和硬件调优。AutoDeploy通过编译器驱动的流程，将模型作者从这些繁琐任务中解放出来，实现“一次描述模型，自动完成优化”。 AutoDeploy可直接从Hugging Face的PyTorch模型出发，自动提取计算图，并通过一系列自动化变换生成针对TensorRT LLM优化的推理图。它支持超过100种文本到文本的LLM，初步支持视觉语言模型（VLMs）和状态空间模型（SSMs），并已成功用于NVIDIA Nemotron 3 Nano等新模型的快速上线。其核心技术包括：利用torch.export捕获标准化图结构，通过模式匹配将注意力、MoE、RoPE等常见模块统一为可识别的自定义算子，确保优化流程的一致性；在后续阶段自动执行算子融合、多GPU分片、性能调优和高效内核插入；支持灵活的注意力机制与缓存管理，无缝集成到TensorRT LLM的缓存系统中。 AutoDeploy还具备强大的可扩展性，允许模型作者通过自定义操作注入特定优化内核，而编译器不会修改这些关键部分。同时，它与torch.compile、CUDA Graph、多流优化等工具链深度集成，实现完整的运行时优化，包括重叠调度、分块预填充、推测性解码等功能。在性能测试中，AutoDeploy在单张NVIDIA Blackwell DGX B200 GPU上，使Nemotron 3 Nano的吞吐量达到每秒350个token（单用户），高吞吐场景下可达13,000输出token/秒，与手动调优的基线性能相当。对于Nemotron-Flash这一混合架构模型，AutoDeploy在数日内完成部署与优化，其性能甚至超越广泛优化的Qwen2.5 3B模型。 AutoDeploy标志着推理优化正从“模型作者负责”转向“编译器与运行时负责”，显著缩短模型上线周期，提升研发效率。该功能特别适用于快速迭代的开源模型和研究型架构，实现从“手动重写”到“编译驱动”的范式转变。开发者可通过官方文档和示例脚本快速体验并参与其演进。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化的全面自动化

相关链接

Command Palette

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化的全面自动化

相关链接

Command Palette

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化的全面自动化

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟