HyperAI超神经

NVIDIA在Blackwell架构中推出了专用的硬件解压缩引擎（Decompression Engine, DE），并配套发布nvCOMP库，显著提升数据密集型工作负载的解压缩效率。压缩技术广泛用于降低存储成本和加速数据传输，但传统软件解压缩常带来延迟并占用大量GPU计算资源。DE通过硬件加速Snappy、LZ4和基于Deflate的流数据解压缩，将解压任务从GPU的流式多处理器（SM）中卸载，释放计算能力用于实际任务。 DE集成于复制引擎中，支持通过PCIe或芯片间（C2C）直接传输压缩数据并在传输过程中完成解压，避免了传统“主机到设备复制+软件解压”的串行流程，大幅减少I/O瓶颈。更重要的是，它实现了数据传输与计算的真正并发：多流任务可并行执行解压与SM内核运算，使GPU始终保持高效利用，尤其适用于大语言模型训练、基因组数据分析和高性能计算等高带宽场景。 nvCOMP库提供GPU加速的压缩与解压接口，支持多种标准格式及NVIDIA优化的专用格式。对于CPU架构占优的解压任务，DE成为关键突破。开发者应通过nvCOMP API调用DE功能，代码可自动适配不同GPU。当DE可用时，nvCOMP自动启用；否则回退至基于SM的加速实现，实现无缝兼容。为充分发挥DE性能，需使用特定内存分配方式。推荐使用cudaMallocFromPoolAsync或cuMemCreate并设置cudaMemPoolCreateUsageHwDecompress或CU_MEM_CREATE_USAGE_HW_DECOMPRESS标志，确保内存分配满足DE硬件要求。此外，建议将解压缓冲区批量组织在同一个分配内存中，避免跨分配带来的驱动启动开销。需注意，B200上单个缓冲区超过4MB时，nvCOMP将自动回退至SM解压，该阈值未来可能调整，可通过API查询。性能对比显示，DE在Snappy、LZ4和Deflate等算法上均显著优于SM，尤其在小数据块（64KB、512KB）场景下优势明显。尽管SM并行度更高，但在高负载下仍难以超越DE的专用硬件效率。总之，Blackwell的DE与nvCOMP结合，使数据解压从性能瓶颈转变为可扩展的硬件加速任务。开发者无需修改代码即可获得性能提升，实现更流畅的数据流水线，显著提升AI、HPC等应用的整体效率。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

nvCOMP携手NVIDIA Blackwell压缩引擎实现极致数据解压缩加速

相关链接

Command Palette

nvCOMP携手NVIDIA Blackwell压缩引擎实现极致数据解压缩加速

相关链接

Command Palette

nvCOMP携手NVIDIA Blackwell压缩引擎实现极致数据解压缩加速

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化