Command Palette

Search for a command to run...

하루 전

INT 대비 FP: 미세한 비트 수준 양자화 형식에 대한 종합적 연구

INT 대비 FP: 미세한 비트 수준 양자화 형식에 대한 종합적 연구

초록

최근의 AI 하드웨어, 예를 들어 Nvidia의 Blackwell 아키텍처는 대규모 언어 모델(LLM)에서 흔히 발생하는 활성화값 이상치(activation outliers)를 처리하기 위해 점점 더 낮은 정밀도 부동소수점(FP) 형식을 채택하고 있다. 이러한 산업적 추세에도 불구하고, 다양한 세분화 수준에서 부동소수점(FP)과 정수(INT) 양자화 간의 통합적인 비교는 여전히 부족하여, 알고리즘과 하드웨어의 공동 설계에 명확한 지침이 부족한 실정이었다. 본 논문은 이러한 격차를 메우기 위해 FP와 INT 형식 간의 상호교환 관계를 체계적으로 탐구한다. 연구를 통해 중요한 성능 전환점(crossover)을 밝혀냈다. 즉, 거시적(코어-그레인) 양자화에서는 FP가 우수한 성능을 보이지만, 미시적(블록 단위) 세분화 수준에서는 비교가 더 복잡하다는 점이다. 본 연구의 종합적 비교 결과, 대표적인 8비트 미시적 양자화 형식(MX, 블록 크기 32)에 대해 MXINT8이 그 FP 대응 형식보다 알고리즘 정확도와 하드웨어 효율성 측면에서 모두 우수함을 입증하였다. 반면 4비트 형식의 경우, 일반적으로 FP 형식(MXFP4, NVFP4 등)이 정확도에서 우위를 보이지만, 하다마드 회전(Hadamard rotation)과 같은 이상치 완화 기법을 적용할 경우 NVINT4가 NVFP4를 초월할 수 있음을 보였다. 또한, 미시적 저비트 정수 양자화 학습 시 발생하는 기울기 편향(gradient bias)을 해결하는 대칭 클리핑(symmetric clipping) 기법을 제안하였으며, 이는 MXINT8 학습에서 거의 손실이 없는 성능을 가능하게 한다. 이러한 발견들은 현재 하드웨어 설계의 방향성을 도전하며, 일률적인 FP 접근 방식이 최적화되지 않았음을 보여주며, 특히 MXINT8과 같은 미시적 정수 형식이 미래 AI 가속기의 정확도, 전력 소비, 효율성 간의 더 나은 균형을 제공할 수 있음을 제안한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp