NVIDIA、推論パフォーマンス向上の「Inference Transfer Library」公開
分散推論パフォーマンスを強化するため、NVIDIA は「Inference Transfer Library(NIXL)」と名付けたオープンソースライブラリを公開しました。このライブラリは、コードアシスタントや推論型 AI など、マルチターン処理で発生する KV キャッシュの増大に対応し、再計算せずにローカル SSD やリモートストレージからデータを読み込むことで効率化を図ります。また、広域エキスパート並列化において、GPU 間で中間結果を高速に送受信する際の課題も解決します。NIXL は、24 時間稼働するサービスのダイナミクスや障害耐性、そして GPU メモリ、CPU メモリ、NVMe、クラウドオブジェクトストアなど多様な階層にわたるメモリストレージを一元管理する抽象化レイヤーを提供します。これにより、異なるハードウェアやネットワーク技術を統一的に扱えるようになり、RDMA や GPU-Direct Storage、S3、Azure Blob Storage などの技術もサポートしています。既存の推論フレームワークである NVIDIA Dynamo、TensorRT LLM、vLLM、SGLang などの構成要素としても採用が進んでいます。NIXL の設計は、メタデータ交換機能によりエージェントの動的なスケーリングを可能にし、通信と計算の重なりを最大化する非ブロッキング API を採用しています。アーキテクチャ上、転送を管理するコンダクタープロセスと転送エージェントで構成され、メモリ登録や記述子リストを用いて転送を定義します。ベンチマークツールとしては、汎用的な「NIXLBench」と、LLM エンジニア向けの KV キャッシュ I/O サイズを自動計算する「KVBench」が用意されており、システム最適化やパフォーマンス検証を支援します。C++ で実装され、C、Python、Rust などのバインディングが存在し、Linux 環境で利用可能です。現時点では GitHub リポジトリで利用可能であり、v1.0.0 リリースに向けて社区からの貢献を求めています。
