NVIDIA Blackwellのハードウェアデコンプレッションエンジンでデータ解凍を高速化、nvCOMPと連携してGPU性能を最大限に活用
NVIDIAは、データセンター、高性能計算、機械学習など、データ集約型ワークロードにおける処理遅延を解消するため、Blackwellアーキテクチャにハードウェア搭載の「デコンプレッションエンジン(DE)」を導入した。このDEは、Snappy、LZ4、Deflateなどの主要フォーマットのデコンプレッションをハードウェアで高速処理することで、GPUのストリーミングマルチプロセッサ(SM)のリソースを解放し、計算に集中できるようにする。従来はCPUやSMでソフトウェアでデコンプレッションを行う必要があり、I/Oバッファの転送と処理の間に遅延が生じていたが、DEはPCIeやC2C経由でデータを転送しながら同時にデコンプレッションを実行できるため、I/Oバッファのボトルネックを大幅に軽減する。 NVIDIAはDEと連携するライブラリ「nvCOMP」も提供。nvCOMPはGPUアクセラレーションを備え、標準フォーマットだけでなく、GPU最適化されたフォーマットもサポート。開発者はnvCOMPのAPIを通じてDEを利用できるが、DEは現在B200、B300、GB200、GB300といった特定GPUに搭載されているため、コードの互換性を確保するためには、nvCOMPの自動フォールバック機能を活用することが推奨される。DE対応には、cudaMemPoolCreateUsageHwDecompressやCU_MEM_CREATE_USAGE_HW_DECOMPRESSといったフラグを設定したピンされたホストメモリの割り当てが必要で、非対応のバッファでは自動的にSMベースの処理に切り替わる。 パフォーマンス面では、SilesiaベンチマークでSnappy、LZ4、Deflateの各アルゴリズムにおいて、DEがSMより大幅に高速な結果を示している。特に512KBのチャンクサイズでは、DEがSMを大きく上回る性能を発揮。ただし、バッファが4MBを超える場合、B200ではDEに代わりSMベースの処理にフォールバックするため、バッチ処理では同じ割り当てからのオフセットを用いることで、オーバーヘッドを最小限に抑えることが重要。 DEとnvCOMPの組み合わせにより、LLM学習や大規模ゲノム解析、HPCシミュレーションなどのワークロードが、GPUの帯域を最大限に活用できるようになり、データ処理全体の効率が飛躍的に向上。開発者はコード変更なしにこれらの恩恵を受けられるため、既存のパイプラインにスムーズに統合可能。NVIDIAは、これによりデータ処理の「遅延の壁」を突破し、AIやHPCの未来を加速するとしている。
