HyperAIHyperAI
Back to Headlines

IBM und NVIDIA beschleunigen Datenanalytik mit GPU-nativem Velox und cuDF

vor 6 Tagen

Mit der Integration von NVIDIA cuDF in den GPU-nativen Ausführungsmotor Velox setzen IBM und NVIDIA neue Maßstäbe für skalierbare Datenanalytik. Durch die Nutzung der hohen Speicherbreitbandbreite und der massiven Parallelität von GPUs können datenintensive Workloads wie komplexe Joins, Aggregationen und String-Verarbeitung deutlich schneller ausgeführt werden als auf klassischen CPU-Systemen. Die Zusammenarbeit zielt darauf ab, bestehende Datenplattformen wie Presto und Apache Spark mit GPU-Beschleunigung auszustatten, ohne deren Architektur grundlegend umzustellen. Velox fungiert dabei als Zwischenschicht, die SQL-Abfragepläne aus Presto oder Spark in GPU-optimierte Ausführungs-Pipelines umwandelt, die von cuDF betrieben werden. Im Fall von Presto wurde der gesamte Abfrageplan auf die GPU übertragen – eine Herausforderung, die neue GPU-Operatoren für TableScan, HashJoin, HashAggregation und FilterProject erforderte. Die Ergebnisse zeigen beeindruckende Leistungssteigerungen: Bei einer Datenmenge mit Skalierungsfaktor 1.000 erreichte Presto auf einem AMD 5965X-CPU 1.246 Sekunden, während die GPU-basierte Version auf einer NVIDIA RTX PRO 6000 nur 133,8 Sekunden benötigte. Mit dem GH200 Grace Hopper Superchip sank die Laufzeit sogar auf 99,9 Sekunden – und mit CUDA Managed Memory sogar auf 148,9 Sekunden für alle 22 Queries, inklusive der bisher nicht lauffähigen Q21. Für verteilte Ausführung wurde ein UCX-basierter Exchange-Operator eingeführt, der NVLink für schnelle interne GPU-Kommunikation und RoCE/InfiniBand für Netzwerkverbindungen nutzt. Auf einem acht-GPU-DGX-A100-System erzielte dies eine mehr als 6-fache Beschleunigung gegenüber dem klassischen HTTP-Exchange. Dies zeigt, dass die Kombination aus hochperformanter Hardware und GPU-optimiertem Datenfluss entscheidend für Skalierbarkeit ist. Im Apache Spark-Umfeld wird der Ansatz hybrid gehandhabt: Durch die Integration mit Apache Gluten wird nur der rechenintensive Teil einer Abfrage (z. B. die zweite Phase von TPC-DS Query 95 SF100) auf die GPU ausgelagert. Selbst bei CPU-TableScan und GPU-Verarbeitung des zweiten Teils wird die Gesamtlaufzeit signifikant reduziert – ein wichtiger Schritt für hybride Cluster mit CPU- und GPU-Node-Mischung. Die offene Natur des Projekts fördert die Wiederverwendbarkeit von GPU-Operatoren, reduziert Doppelarbeit und beschleunigt Innovationen im gesamten Open-Source-Datenökosystem. Die Zusammenarbeit zwischen IBM und NVIDIA sowie zahlreichen Mitentwicklern stellt einen bedeutenden Fortschritt für die Zukunft der Datenanalytik dar. Industrieexperten sehen in der Velox-cuDF-Integration einen Meilenstein für die Realisierung von Echtzeit-Analytics bei Big Data. Die Möglichkeit, bestehende Workflows ohne Neuausrichtung GPU-beschleunigt zu betreiben, senkt die Einführungshürden erheblich. Unternehmen wie IBM und NVIDIA positionieren sich damit als Treiber einer neuen Ära der Datenverarbeitung – wo GPU-Architekturen nicht mehr nur für KI, sondern auch für klassische Datenanalytik zentral werden. Die offene Entwicklung ermöglicht eine breite Adaption und beschleunigt die Transformation von Dateninfrastrukturen weltweit.

Related Links