HyperAI

3ヶ月前

分散推論パフォーマンスを強化するため、NVIDIA は「Inference Transfer Library（NIXL）」と名付けたオープンソースライブラリを公開しました。このライブラリは、コードアシスタントや推論型 AI など、マルチターン処理で発生する KV キャッシュの増大に対応し、再計算せずにローカル SSD やリモートストレージからデータを読み込むことで効率化を図ります。また、広域エキスパート並列化において、GPU 間で中間結果を高速に送受信する際の課題も解決します。NIXL は、24 時間稼働するサービスのダイナミクスや障害耐性、そして GPU メモリ、CPU メモリ、NVMe、クラウドオブジェクトストアなど多様な階層にわたるメモリストレージを一元管理する抽象化レイヤーを提供します。これにより、異なるハードウェアやネットワーク技術を統一的に扱えるようになり、RDMA や GPU-Direct Storage、S3、Azure Blob Storage などの技術もサポートしています。既存の推論フレームワークである NVIDIA Dynamo、TensorRT LLM、vLLM、SGLang などの構成要素としても採用が進んでいます。NIXL の設計は、メタデータ交換機能によりエージェントの動的なスケーリングを可能にし、通信と計算の重なりを最大化する非ブロッキング API を採用しています。アーキテクチャ上、転送を管理するコンダクタープロセスと転送エージェントで構成され、メモリ登録や記述子リストを用いて転送を定義します。ベンチマークツールとしては、汎用的な「NIXLBench」と、LLM エンジニア向けの KV キャッシュ I/O サイズを自動計算する「KVBench」が用意されており、システム最適化やパフォーマンス検証を支援します。C++ で実装され、C、Python、Rust などのバインディングが存在し、Linux 環境で利用可能です。現時点では GitHub リポジトリで利用可能であり、v1.0.0 リリースに向けて社区からの貢献を求めています。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。

Command Palette

NVIDIA、推論パフォーマンス向上の「Inference Transfer Library」公開

関連リンク

Command Palette

NVIDIA、推論パフォーマンス向上の「Inference Transfer Library」公開

関連リンク

Command Palette

NVIDIA、推論パフォーマンス向上の「Inference Transfer Library」公開

関連リンク

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。

材料AIは「説明可能な時代」へと向かっている：日本の研究チームが高次元分光法のブラックボックスを解明し、新素材発見のための重要な特徴を特定した。