NVIDIA Run:ai 模型流加速器大幅降低大语言模型推理冷启动延迟
在大规模语言模型(LLM)推理部署中,冷启动延迟——即模型从存储加载到GPU内存所需的时间——已成为影响用户体验和系统可扩展性的关键瓶颈。尤其在云环境中,模型动辄占用数十至数百GB内存,传统顺序加载方式导致显著延迟。为应对这一挑战,NVIDIA与Run:ai联合推出开源Python SDK——Model Streamer,旨在通过并发读取与流式传输技术,大幅降低模型加载时间。 Model Streamer采用高性能C++后端,支持从本地磁盘、网络文件系统及云存储(如Amazon S3)并行读取模型权重,同时将数据直接流式传输至GPU内存。其核心机制在于利用CPU与GPU独立的内存子系统:在CPU读取数据的同时,GPU可并行执行数据传输,实现存储读取与内存拷贝的重叠处理。实验基于AWS g5.12xlarge实例(配备NVIDIA A10G GPU与AMD EPYC CPU)进行,对比了Model Streamer、Hugging Face Safetensors Loader与CoreWeave Tensorizer三种加载器在不同存储介质上的表现。 测试结果显示,Model Streamer在各类存储环境下均显著优于传统方法。在GP3 SSD上,当并发线程数提升至16时,加载时间从47.56秒降至14.34秒;在更高性能的IO2 SSD上,加载时间进一步缩短至7.53秒(相比Safetensors的47秒,提速约6倍)。在Amazon S3云存储中,Model Streamer在32并发下仅需4.88秒,远快于Tensorizer的37.36秒,展现出更强的云环境适应能力。 更重要的是,Model Streamer与vLLM推理引擎集成后,显著缩短了从模型加载到可用的总时间。在GP3 SSD上,vLLM整体就绪时间由Safetensors的66.13秒降至35.08秒,IO2 SSD上也从62.69秒降至28.28秒,S3环境下更从65.18秒降至23.18秒。 此外,Model Streamer兼容Safetensor格式,无需转换权重,降低了部署复杂度。实验表明,合理配置并发度、选择高性能存储,并采用流式加载,是提升LLM推理效率的关键。 综上,NVIDIA Run:ai Model Streamer为解决LLM冷启动延迟提供了高效、易集成的解决方案,特别适用于需要快速响应与弹性扩展的生产级AI系统。建议在部署大模型服务时优先采用该工具,以实现存储吞吐饱和与时间至推理的最优化。