Back to Headlines

FP8 트레이닝으로 초고속 LLM 학습 구현: NVIDIA NeMo 기반 실측 성능 분석

4일 전

NVIDIA는 NeMo 프레임워크를 활용해 FP8 정밀도를 활용한 대규모 언어모델(LLM) 훈련의 성능을 실증적으로 평가했다. H100과 DGX B200 GPU 기반에서 다양한 FP8 스케일링 기법을 비교한 결과, 모델 크기가 커질수록 FP8의 가속 효과가 두드러졌다. 특히 Llama 3.1 405B 모델에서는 현재 기술 기반 FP8 훈련이 BF16 대비 1.53배 빠른 성능을 기록했다. 이는 더 큰 모델에서 행렬 곱셈(GEMM)의 양이 급증함에 따라 8비트 정밀도의 계산 효율이 상대적으로 더 두드러지기 때문이다. 스케일링 정밀도는 성능과 수치 안정성 사이의 균형을 결정한다. 텐서 단위 스케일링은 높은 처리 속도를 제공하지만, 수치 변동을 잘 반영하지 못해 훈련 손실이 불안정할 수 있다. 반면 블록 단위 스케일링(예: MXFP8)은 32개 값에 하나의 스케일링 인자를 적용해 수치 안정성을 높이며, Llama 3.1 405B 등 대규모 모델에서 BF16과 유사한 수렴 경로를 보였다. DGX B200 기반 MXFP8은 1.28~1.37배의 일관된 가속을 기록하며, Blackwell 아키텍처의 Tensor Core와 메모리 계층이 블록 기반 FP8을 최적화했다는 점을 입증했다. GB200 Grace Blackwell Superchip은 B200 GPU 두 개와 Grace CPU를 NVLink으로 연결해 통합 메모리 도메인을 형성, 메모리 대역폭을 극대화해 대규모 모델 훈련에서 추가적인 성능 향상을 보였다. 이는 FP8 기술이 단순한 정밀도 저하를 넘어서, 하드웨어와 소프트웨어의 통합 설계를 통해 실제 생산 환경에서의 효율을 극대화할 수 있음을 보여준다. 결론적으로, FP8은 모델 크기가 커질수록 더욱 효과적인 훈련 가속 수단이 되며, 적절한 스케일링 전략 선택이 성능과 수치 안정성의 균형을 이끄는 핵심이다.

Related Links