Nvidia의 새로운 Rubin CPX로 시작하는 장문 컨텍스트 추론의 분산 전략, 비용 효율성 혁신을 이끈다
NVIDIA는 2026~2027년 AI 컴퓨팅 수요 정점기에 맞춰 ‘루빈(Rubin) CPX’ GPU를 출시하며 장문 맥락 처리를 위한 비용 효율적인 인프라 전략을 제시했다. 이는 고가의 HBM 메모리 수요가 공급을 초과하는 상황에서, 계산과 메모리 대역폭의 균형을 해체해 효율을 극대화한 디스어그리게이션(inference disaggregation) 전략이다. 루빈 CPX는 고성능 HBM 대신 GDDR7 메모리를 사용해 비용을 낮추고, 코드 생성, 영상 처리 등 100만 토큰 이상의 장문 맥락을 처리하는 작업에 특화됐다. 기존 단일 GPU에서 맥락 처리(prefill)와 토큰 생성(decode)의 밸런스가 어려웠지만, CPX는 맥락 처리를 담당하고, 별도의 GPU가 토큰 생성을 수행하며 KV 캐시를 공유해 6배의 처리량을 달성한다. 이는 컴퓨팅 증가율 2.25배에 비해 성능이 6배 향상된 셈이다. 루빈 CPX는 30페타플롭스 FP4 성능을 갖추며, 전용 어텐션 가속 코어를 탑재해 인공지능 모델의 핵심 연산을 효율적으로 처리한다. 메모리 대역폭은 HBM4 대비 2.1TB/s 수준으로 낮지만, 비용과 확장성 측면에서 유리하다. NVIDIA는 루빈 CPX를 포함한 ‘베라 루빈(Vera Rubin)’ 랙스케일 시스템을 통해 1억 달러 투자당 50억 달러의 수익을 창출할 수 있다고 밝혔다. 이는 단순한 저가 GPU가 아니라, 인프라 설계 전략의 혁신으로, 장문 맥락 AI 워크로드의 경제성 문제를 해결하는 핵심 도구로 부상하고 있다.