Back to Headlines

GPU-가속 Velox와 cuDF로 대규모 데이터 분석 속도 혁신: Presto와 Spark 통합 성능 분석

6일 전

IBM와 NVIDIA는 GPU 기반 데이터 분석 성능을 혁신적으로 향상시키는 공동 프로젝트를 발표했다. 주요 기술은 NVIDIA cuDF와 GPU-native 실행 엔진인 Velox의 통합으로, Presto와 Apache Spark와 같은 대규모 데이터 플랫폼에서 GPU 기반 쿼리 실행을 가능하게 한다. Velox는 SQL 쿼리 계획을 GPU 전용 실행 파이프라인으로 변환하는 중간 계층 역할을 하며, cuDF는 고성능 GPU 연산을 제공한다. 테스트 결과, Presto의 경우 1,000배 규모의 TPC-H 데이터에서 CPU 기반 실행 대비 NVIDIA GH200 슈퍼칩 기반 GPU 실행이 최대 12배 빠른 성능을 보였다. 특히 NVLink 기반 고속 내부 연결을 활용한 8GPU DGX A100 노드에서는 기존 HTTP 기반 데이터 교환 대비 6배 이상의 속도 향상을 기록했다. Apache Spark의 경우, 복잡한 쿼리의 특정 단계만 GPU로 오프로드하는 하이브리드 실행 방식을 도입해 효율성을 극대화했다. TPC-DS 쿼리 95의 경우, CPU에서 테이블 스캔을 수행하고 GPU에서 연산 집계를 처리할 때 전체 실행 시간이 크게 단축됐다. 이번 협업은 오픈소스 기반으로 진행되며, Velox에 통합된 GPU 연산자들은 Presto, Spark, Gluten 등 다양한 시스템에서 재사용 가능하다. 이는 중복 개발을 줄이고 데이터 분석 생태계 전체의 성능을 끌어올리는 데 기여할 전망이다.

Related Links