
초록
대규모 언어 모델(Large Language Models, LLMs)의 가중치를 16비트에서 더 낮은 비트폭으로 양자화하는 것은 더 저렴한 가속기에서 대규모 트랜스포머를 배포하는 표준적인 방법이다. GPTQ는 대규모 LLM에서 단일 스텝(post-training quantization) 양자화를 위한 표준 방법 중 하나로 등장하였다. 그러나 이 알고리즘의 내부 작동 원리는 기하학적 의미나 최악의 경우 보장이 없는 임의의 대수적 업데이트로 이루어져 있다. 본 연구에서는, 선형 층(linear layer)에 대해 뒤에서 앞으로(마지막 차원에서 첫 번째 차원으로) 실행할 때, GPTQ가 해당 층 입력의 헤시안 행렬(Hessian matrix)로 정의된 격자(lattice)에서 고전적 최근접 벡터 문제(Closest Vector Problem, CVP)에 대한 Babai의 최근접 평면 알고리즘(Nearest Plane Algorithm)과 수학적으로 동일하다는 것을 보여준다. 이 동등성은 복잡한 수학적 논증에 기반하며, 두 가지 분석적 결과를 초래한다: (i) GPTQ의 오차 전파 단계는 직관적인 기하학적 해석을 얻게 되며; (ii) 클리핑 없이 실행될 경우, GPTQ는 Babai 알고리즘의 오차 상한을 상속하게 된다. 이 두 결과는 GPTQ를 명확한 이론적 기반 위에 올려놓고, 수십 년에 걸친 격자 알고리즘의 발전을 미래의 수십억 파라미터 모델을 위한 양자화 알고리즘 설계에 적용할 수 있는 문을 열어준다.