NVIDIA Run:ai Model Streamer 대폭 감소시킨 LLM 추론의 콜드스타트 지연, 클라우드 및 로컬 스토리지에서 뛰어난 성능 입증
5일 전
대규모 언어 모델(LLM)의 추론 효율성을 높이기 위한 NVIDIA Run:ai 모델 스트리머가 출시됐다. 이 도구는 모델 가중치를 저장소에서 GPU 메모리로 동시에 읽고 전송하는 방식으로 냉시작 지연을 크게 줄인다. 실험 결과, 로컬 SSD와 아마존 S3 환경에서 기존의 Hugging Face Safetensors 로더와 CoreWeave Tensorizer보다 빠른 로딩 속도를 보였다. 특히 IO2 SSD에서는 모델 스트리머가 Safetensors 대비 약 6배 빠르게 로딩했으며, S3 기반 환경에서는 최대 37초에서 4.88초로 감소하는 성능 향상을 기록했다. vLLM 추론 엔진과 연동한 실험에서도 모델 스트리머는 준비 시간을 35초 이하로 단축해 실제 서비스에서의 응답 지연을 획기적으로 개선했다. 이는 병렬 스트리밍과 CPU/GPU 간 독립적 처리를 활용한 고성능 C++ 백엔드의 효과로, 저장소 대역폭을 최대한 활용할 수 있도록 설계됐다. Safetensor 형식과 호환되며, 변환 과정 없이 바로 사용 가능해 기존 시스템과의 통합도 용이하다. 이는 클라우드 기반 AI 서비스에서 빠른 모델 가동과 확장성을 확보하는 데 핵심 도구로 기능할 전망이다.