HyperAI超神经
Back to Headlines

TensorRT-LLM 实战指南:优化大型语言模型推理性能

a day ago

在部署、集成或基准测试大型语言模型(LLM)框架时,考虑推理性能至关重要。你需要确保所选框架及其功能能够在你的应用中实现重要的性能指标。NVIDIA TensorRT-LLM是一个开源AI推理引擎,它提供了原生的基准测试和部署工具,让你可以针对多种特性进行调优。 如何使用trtllm-bench基准测试 设置GPU环境 基准测试的第一步是配置一个合适的GPU环境。为了将GPU恢复到默认设置,你可以运行以下命令: nvidia-smi -r 查询GPU的最大性能: nvidia-smi -q -d POWER 如果你想设置特定的功耗限制,可以运行: nvidia-smi -pl [desired_power] 更多详情请参见trtllm-bench的官方文档。 准备数据集 你可以使用prepare_dataset工具生成合成数据集,或者根据文档指定的格式创建自己的数据集。对于自定义数据集,可以将每个请求配置为JSON Lines(jsonl)文件的一行。本文中提供的示例基于ISL/OSL为128/128的合成数据集。 运行基准测试 要使用trtllm-bench进行基准测试,可以运行以下命令来测试吞吐量: trtllm-bench throughput --model-name <model_name> --model-revision <revision> --batch-size 1 --seq-len 128 --max-output-length 128 --dtype fp16 这将自动从HuggingFace下载模型检查点(如果未缓存),并使用PyTorch流启动TensorRT-LLM。完成运行后,结果将保存在results.json文件中,并打印到终端。 分析性能结果 trtllm-bench的主要统计信息在“性能概述”部分显示。常见的性能指标包括每秒输出的令牌数量(Throughput)、每次令牌的延迟(Latency)、首次令牌到达的时间(Time-To-First-Token, TTFT)等。 假设你想最大化系统利用率,并且希望用户获得至少50个令牌/秒的输出速度(大约每20毫秒返回一个令牌)。通过绘制并发用户数与每秒输出令牌数的关系曲线(如图1所示),你可以评估GPU性能与用户体验之间的权衡。 图1显示,Meta的Llama-3.1 8B FP16模型在达到每用户约72个令牌/秒时,只能支持大约256名并发用户。而NVIDIA的Llama-3.1 8B FP8优化模型可以在相同的性能预算下支持512名并发用户,每用户的输出速度约为66个令牌/秒。这表明通过量化,可以显著提高系统的并发能力。 如何使用trtllm-serve部署大型语言模型 TensorRT-LLM还提供了使用trtllm-serve命令轻松启动OpenAI兼容端点的功能。你可以利用上述trtllm-bench进行的调优结果来配置一个优化的服务器。与基准测试不同,trtllm-serve不进行任何配置假设,除了基本的设置。为了根据最大吞吐量结果进行调优,你需要运行以下命令: trtllm-serve --model-name <model_name> --model-revision <revision> --engine-config-path <path_to_engine_config> --extra-llm-api-options <path_to_llm_api_options> 其中<path_to_engine_config>和<path_to_llm_api_options>是你从trtllm-bench获取的配置文件路径。 结论与资源 通过trtllm-bench,开发者可以轻松地基准测试不同配置、并发能力和功能的大型语言模型。这些设置可以直接应用于TensorRT-LLM的原生部署解决方案trtllm-serve,从而无缝地将性能调优成果转化为OpenAI兼容的部署。为了进一步了解性能、特定模型调优以及如何使用TensorRT-LLM进行调优和基准测试,你可以参考以下资源: LLM Inference Benchmarking: Fundamental Concepts - 解释了基准测试中的常见指标和参数。 LLM Inference Benchmarking Guide: NVIDIA GenAI-Perf and NIM - 提供了如何使用GenAI-Perf和NVIDIA NIM进行应用程序基准测试的指南。 trtllm-bench官方文档 - 详细说明了如何配置和运行trtllm-bench。 NVIDIA TensorRT-LLM是一个强大的工具,可以帮助开发者高效地部署和调优大型语言模型,从而满足各种应用场景的需求。 在业界看来,TensorRT-LLM不仅简化了大型语言模型的部署和调优过程,还提供了卓越的性能表现。这一开源工具的推出,使得即使是中小型企业也能利用先进的AI技术,从而推动了整个行业的创新。NVIDIA作为全球领先的GPU和AI技术公司,其在大规模AI模型推理领域的持续投入和技术积累,为开发者社区带来了极大的便利。

Related Links