NVFP4로 구현된 4비트 전처리 기반 AI 모델 훈련, 정확도와 효율성의 새로운 기준 설정
하루 전
NVIDIA는 4비트 정밀도를 활용한 대규모 언어모델(LLM) 사전학습 기술인 NVFP4를 공개하며 AI 훈련의 효율성과 속도를 혁신적으로 개선했다. 기존 16비트 정밀도의 정확도와 4비트의 빠른 처리 속도를 동시에 실현한 이 기술은, 특히 대규모 모델 훈련에서 메모리 사용량을 대폭 줄이고 연산 효율을 높여, 동일한 하드웨어로 더 많은 토큰을 처리할 수 있게 한다. 이는 훈련 시간 단축과 실험 빈도 증가로 이어져, AI 연구의 가속화를 가능하게 한다. NVFP4는 블랙웰 아키텍처 기반의 GB200·GB300에서 최적화된 4비트 행렬 곱셈 연산을 통해 기존 허퍼 기술 대비 최대 7배 빠른 성능을 보이며, 기존 FP8·BF16보다 높은 토큰 처리량을 달성한다. 실제 120억 파라미터 모델을 1조 토큰 규모로 사전학습한 결과, NVFP4는 FP8 기준 모델과 거의 동일한 정확도와 안정적인 수렴을 보였으며, 하위 작업에서의 성능도 유사한 수준을 기록했다. 이러한 기술은 OpenAI, Google Cloud, Amazon Web Services, Cohere, Perplexity 등 주요 AI 기업과의 협업을 통해 검증되고 있으며, AI 공장의 핵심 인프라로서의 가능성을 입증하고 있다. 4비트 정밀도는 단순한 리소스 절약을 넘어, 더 큰 모델, 더 많은 훈련 데이터, 더 빠른 혁신 주기를 가능하게 하며, AI 발전의 새로운 기준을 제시하고 있다.