HyperAI초신경
Back to Headlines

AI 트레이닝 네트워크 혼잡 해결, UCCL 도입

5일 전

AI 훈련에서 네트워크 혼잡을 해결하는 UCCL 기술의 도입을 통해 대규모 GPU 클러스터의 효율성이 높아지고 있다. GPT-4와 같은 대형 모델을 훈련시키는 데 수백억 개의 파라미터가 필요한데, 이는 수천 개의 GPU가 동시에 데이터를 교환해야 하는 복잡한 과정을 요구한다. 그러나 이러한 통신 과정에서 네트워크는 주요 병목 현상이 되어 훈련 속도를 저하시킨다. 기존의 RDMA 기반 네트워크 기술은 스토리지 및 거래 작업에 적합하지만, AI 훈련처럼 대량의 데이터가 동시에 전송되는 버스트형 트래픽에는 부적합하다. UCCL은 이러한 문제를 해결하기 위해 수신자 기반의 흐름 제어를 도입했다. NCCL(집단 통신 라이브러리)과 NIC 드라이버 사이에 위치한 소프트웨어 정의 전송 계층을 통해 네트워크 트래픽의 전반적인 패턴을 사전에 파악하고, 이를 바탕으로 데이터 전송을 조절한다. 이 기술은 수신자(B0)가 데이터 전송을 조절하여, 네트워크 혼잡을 방지하고, 대량의 데이터 전송을 더 효과적으로 관리한다. 또한, UCCL은 하드웨어에 의존하는 고정 큐 페어(QP) 대신 소프트웨어 기반의 가상 큐를 사용하며, 하나의 NIC당 하나의 QP만을 사용함으로써 ECMP 해시 충돌을 줄이고, 네트워크의 일관된 행동을 가능하게 한다. UCCL은 네트워크 혼잡을 예방하는 방식으로, 데이터 전송이 시작되기 전에 트래픽을 조절한다. 이는 네트워크의 대기 시간을 줄이고, AI 훈련의 전체적인 성능을 향상시킨다. 실제 테스트에서 UCCL은 기존의 NCCL보다 AllReduce 작업을 더 빠르게 수행하며, 네트워크 혼잡을 줄이고 데이터 전송의 안정성을 높였다. 특히, H100 GPU부터 T4 GPU까지 다양한 환경에서도 UCCL은 뛰어난 성능을 보였다. 평가 및 분석 UCCL은 기존의 네트워크 인프라를 변경하지 않고도 AI 훈련의 네트워크 효율성을 크게 향상시킬 수 있는 기술로 평가받고 있다. 업계 전문가들은 UCCL이 대규모 GPU 클러스터에서의 통신 문제를 해결할 수 있는 실질적인 솔루션이라고 강조한다. Meta 같은 기업은 기존의 DCQCN과 PFC 기반 네트워크 혼잡 제어를 포기하고, 애플리케이션 레벨에서 직접 관리하는 방식을 채택했다. 그러나 UCCL은 네트워크 레벨에서의 혼잡을 사전에 예방함으로써, 더 안정적인 성능을 제공한다. UCCL은 네트워크 팀이 이미 보유한 장비와 호환되며, 대규모 AI 훈련 환경에서의 네트워크 최적화를 위한 중요한 도구로 자리 잡고 있다.

Related Links