NVLink Fusion: Unleashing Scalable AI Inference with Custom Silicon and 72-GPU Performance
AI 모델의 복잡성 급증에 따라 추론 성능과 유연성을 높이기 위해 NVIDIA는 NVLink 및 NVLink Fusion 기술을 통해 대규모 GPU 클러스터의 통합 컴퓨팅 능력을 강화하고 있다. NVLink은 2016년 처음 도입된 이후 GPU 간 고속 통신과 통합 메모리 공간을 가능하게 하며, 2024년 발표된 5세대 NVLink은 72개 GPU 간 1,800 GB/s의 전이-전체 대역폭을 지원해 초기 대비 800배 향상된 130 TB/s의 총 대역폭을 구현한다. 이는 복잡한 혼합 전문가(MoE) 아키텍처와 테스트 시점 확장 기반 추론에 필수적인 대규모 병렬화를 가능하게 한다. NVIDIA는 NVLink을 기반으로 NCCL(집합 통신 라이브러리)를 통해 단일 노드 및 다중 노드 환경에서 GPU 간 통신을 최적화하며, 모든 주요 딥러닝 프레임워크에 통합되어 실시간 성능을 보장한다. 특히 72GPU 랙 아키텍처는 전력 대비 처리량과 지연 시간의 최적 균형을 제공해 AI 팩토리의 수익성을 극대화한다. NVLink Fusion은 하이퍼스케일러가 자체 CPU 또는 XPU를 NVLink 스케일업 기반 인프라에 통합할 수 있도록 허용한다. UCIe 기반의 브리지 칩렛을 통해 XPU와의 고성능 통신이 가능하며, NVLink-C2C IP를 활용한 CPU 통합도 권장된다. 이로써 CUDA-X 라이브러리 등 NVIDIA의 기술 생태계를 활용할 수 있다. OCP MGX 랙 기반의 모듈화된 솔루션은 다양한 NIC, DPU, 스케일아웃 스위치와의 호환성을 보장해 유연한 인프라 구축을 가능하게 한다. 이 기술 생태계는 이미 GB200 NVL72 및 GB300 NVL72 시스템의 양산 기반으로 확장되어 있으며, 공급망과 파트너 네트워크를 통해 빠른 시장 진입이 가능하다. NVLink Fusion은 AI 추론의 성능과 확장성을 동시에 충족시키는 핵심 인프라로, 미래 AI 시장의 경쟁력을 좌우할 전략적 기술로 부상하고 있다.