Command Palette
Search for a command to run...

초록
최근 NVIDIA 및 AMD GPU에서 지원되는 하드웨어 가속형 미세 스케일링 4비트 부동소수점 포맷인 MXFP4와 NVFP4는 대규모 언어 모델(LLM) 추론 분야에서 혁신을 가져올 것으로 기대되고 있다. 그러나 이러한 포맷의 실질적 이점은 아직 입증되지 않은 상태이다. 본 연구에서는 훈련 후 양자화(post-training quantization)를 대상으로 MXFP4와 NVFP4에 대한 최초의 종합적 분석을 제시하며, 이들 포맷이 제시하는 기대와 실제 성능 사이의 격차를 드러낸다. 분석 결과, 최신 양자화 기법들이 FP4 환경에서 성능을 발휘하기 어려운 이유는 두 가지 핵심 문제에 기인함을 확인하였다. (1) NVFP4의 작은 그룹 크기는 기존의 이상치 완화 기법을 수학적으로 무력화시킨다. (2) MXFP4의 2의 거듭제곱 스케일 양자화는 높은 오차를 유도하여 정확도를 심각하게 저하시킨다. 이러한 격차를 해소하기 위해, 우리는 블록 단위의 하다마드 변환(block-wise Hadamard transforms)과 포맷 특화 최적화를 활용하여 FP4의 고유 특성에 맞춰 양자화 과정을 조정하는, 고전적인 GPTQ 양자화 알고리즘의 변형인 Micro-Rotated-GPTQ(MR-GPTQ)를 제안한다. 본 제안의 타당성을 입증하기 위해, 가중치에 회전을 융합함으로써 거의 무효한 오버헤드로 MR-GPTQ 포맷을 구현할 수 있는 고성능 GPU 커널 세트를 개발하였으며, 활성화 값의 빠른 온라인 계산을 가능하게 한다. 그 결과, NVIDIA B200에서는 레이어 단위로 최대 3.6배, 엔드투엔드로 2.2배의 성능 향상이 달성되었고, RTX 5090에서는 레이어 단위로 6배, 엔드투엔드로 4배의 가속 효과를 확인하였다. 광범위한 실험적 평가를 통해 MR-GPTQ가 최첨단 정확도를 달성하거나 이를 초과함을 입증하였으며, 특히 MXFP4의 성능을 크게 향상시켜 NVFP4 수준에 근접하게 만들었다. 결론적으로, FP4가 INT4보다 자동으로 우수한 성능을 보장하는 것은 아니지만, MR-GPTQ와 같은 포맷 전용 양자화 기법을 통해 정확도-성능 간의 새로운 균형 영역을 열 수 있음을 시사한다.