NVIDIA Run:ai Model StreamerでLLM推論のコールドスタート遅延を大幅削減
大規模言語モデル(LLM)の推論を実行する際、GPUメモリへのモデル読み込みにかかる「コールドスタート遅延」は、ユーザー体験やスケーラビリティを大きく左右する課題です。特にクラウド環境では、数十GBから数百GBに及ぶモデルデータを扱う必要があり、従来の順次読み込み方式では遅延が深刻化します。こうした課題に対応するため、NVIDIAとRun:aiが共同開発した「Model Streamer」が注目されています。 Model Streamerは、オープンソースのPython SDKで、ストレージ(ローカルSSD、Amazon S3など)からモデル重みを並列で読み込み、CPUメモリを経由してGPUに直接ストリーミングする仕組みです。GPUとCPUの独立したメモリシステムを活かし、ストレージ読み込みとGPU転送を同時進行することで、実時間での重なりを実現。実験では、AWSのg5.12xlargeインスタンス(A10G GPU、AMD EPYC CPU)を用いて、Safetensors LoaderやCoreWeave Tensorizerと比較した結果、Model Streamerが顕著な高速化を実現しました。 特に、IO2 SSDではModel Streamerが16スレッドで7.53秒、S3では32スレッドで4.88秒と、他の手法を大きく上回りました。また、vLLMとの統合実験では、GP3 SSDで66.13秒かかっていた読み込み準備時間(Ready Time)がModel Streamerで35.08秒まで短縮。S3環境では65.18秒から23.18秒へと大幅改善。これは、モデルの即時利用やスケーラブルな推論サービス構築に直接貢献します。 Model Streamerの特徴は、Safetensorフォーマットを変換せずそのまま利用できる点。重みの変換コストが不要で、既存のモデルと容易に統合可能です。また、高並列読み込みによりストレージの帯域を最大限に活用し、実際のI/O性能を引き出す設計が評価されています。 結論として、Model Streamerはコールドスタート遅延を顕著に低減する実用的ツールであり、特にクラウドや動的負荷に対応するLLM推論システムの構築において、迅速な準備時間と安定したスケーラビリティを実現する鍵となる。開発者は、モデルの高速読み込みと運用効率向上のために、このツールの導入を検討すべきです。