HyperAI

NVIDIA hat mit der Einführung der Hardware-Decompression Engine (DE) in der Blackwell-Architektur eine entscheidende Verbesserung für datenintensive Workloads vorgenommen. Ziel ist es, die durch Software-dekomprimierung verursachten Latenzen und Ressourcenverbrauch zu reduzieren, die in Bereichen wie maschinelles Lernen, Hochleistungsrechnen (HPC) und Genomik zu Engpässen führen. Die DE ist ein festfunktionaler Hardwareblock, der die Dekomprimierung von Snappy, LZ4 und Deflate-basierten Datenströmen beschleunigt und dabei die Streaming Multiprocessors (SMs) der GPU entlastet. Dadurch werden Rechenressourcen für kritische Berechnungen frei und die GPU bleibt besser ausgelastet. Die Engine ist Teil des Copy-Engines und ermöglicht die Dekomprimierung direkt während der Datenübertragung über PCIe oder C2C, wodurch der klassische I/O-Engpass eliminiert wird. Besonders vorteilhaft ist die Möglichkeit zur echten Konkurrenz von Datenübertragung und Berechnung: Mehrere Datenströme können parallel dekomprimiert und verarbeitet werden, ohne dass die GPU auf I/O-Wartezeiten warten muss. Diese Funktion wird durch die nvCOMP-Bibliothek ergänzt, die GPU-beschleunigte Kompressions- und Dekompressionsroutinen für Standard- und NVIDIA-optimierte Formate bereitstellt. Entwickler profitieren davon, dass nvCOMP automatisch die DE nutzt, wenn verfügbar – ohne Codeänderungen. Bei GPUs ohne DE-Funktion fällt die Bibliothek auf beschleunigte SM-basierte Implementierungen zurück. Um die DE nutzen zu können, müssen Puffer bestimmte Anforderungen erfüllen: Sie müssen entweder mit cudaMallocFromPoolAsync oder cuMemCreate unter Verwendung des Flags cudaMemPoolCreateUsageHwDecompress bzw. CU_MEM_CREATE_USAGE_HW_DECOMPRESS in pinned Host-Speicher alloziert werden, typischerweise auf der ersten CPU-NUMA-Node. Die Verwendung von Pufferbatches aus derselben Allokation ist zudem entscheidend für optimale Leistung, da sonst hohe Treiber-Overhead-Kosten entstehen. Die Leistung der DE übertrifft deutlich die SM-basierte Dekompression, besonders bei typischen Datenchunk-Größen wie 64 KiB oder 512 KiB, wie Benchmark-Tests am Silesia-Datensatz zeigen. Für Snappy wurde in nvCOMP 5.0 eine spezielle Optimierung vorgenommen, während LZ4 und Deflate noch Verbesserungspotenzial bieten. Ein Limit von 4 MB pro Puffer auf der B200-GPU führt zur Rückkehr auf SM-basierte Dekompression – ein Wert, der in Zukunft möglicherweise angepasst wird und abfragbar ist. Industrieexperten sehen in der DE eine bahnbrechende Entwicklung, die die Effizienz von GPU-Workloads signifikant steigert. Die nahtlose Integration über nvCOMP macht die Technologie besonders attraktiv für Entwickler, die hohe Durchsatzraten bei minimaler Codeanpassung benötigen. NVIDIA positioniert Blackwell mit dieser Innovation als führende Plattform für datenintensive Anwendungen, wobei die Kombination aus Hardware-Engine und Software-Bibliothek ein robustes Fundament für zukünftige Skalierbarkeit bietet.

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

NVIDIA Blackwell beschleunigt Datenentkompression mit nvCOMP und Hardware-Engine

Verwandte Links

Command Palette

NVIDIA Blackwell beschleunigt Datenentkompression mit nvCOMP und Hardware-Engine

Verwandte Links

Command Palette

NVIDIA Blackwell beschleunigt Datenentkompression mit nvCOMP und Hardware-Engine

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.