3일 전

양자화가 dLLMs와 만난다: 확산 LLMs를 위한 사후 양자화에 대한 체계적 연구

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, et al
양자화가 dLLMs와 만난다: 확산 LLMs를 위한 사후 양자화에 대한 체계적 연구
초록

최근 확산형 대규모 언어 모델(dLLMs)의 발전은 자연어 생성 과제에서 자동회귀(AR) 기반 대규모 언어 모델에 대한 매력적인 대안을 제시하고 있다. 이는 전체 주의(attention) 메커니즘과 노이즈 제거 기반 디코딩 전략을 활용함으로써 가능해졌다. 그러나 이러한 모델은 파라미터 규모가 매우 크고 리소스 소비가 높아 엣지 장치에서의 배포가 여전히 큰 도전 과제로 남아 있다. 자동회귀형 대규모 언어 모델의 압축을 위한 후학습 양자화(PTQ) 기법은 이미 널리 채택된 기술이지만, dLLMs에 대한 적용 가능성은 거의 탐색되지 않은 상태이다. 본 연구에서는 확산 기반 언어 모델의 양자화에 대한 최초의 체계적인 연구를 제시한다. 먼저, 활성화 값이 비정상적으로 큰 활성화 이상치(activation outliers)가 존재함을 확인하였으며, 이러한 이상치는 동적 범위를 지배하는 특성을 지닌다. 이러한 이상치는 저비트 양자화에 있어 핵심적인 과제를 야기하는데, 이는 다수의 활성화 값에 대한 정밀도를 유지하기 어렵게 만든다. 더욱 중요한 점은, 최신 PTQ 기법을 구현하고 다양한 과제 유형과 모델 변형에 걸쳐 포괄적인 평가를 수행했다는 것이다. 본 연구의 분석은 비트 폭, 양자화 방법, 과제 유형, 모델 유형의 네 가지 핵심 차원을 중심으로 구성되었다. 이러한 다각적 평가를 통해, 다양한 설정에서 dLLM의 양자화 동작에 대한 실용적인 통찰을 제시한다. 본 연구의 결과가 향후 효율적인 dLLM 배포 연구의 기초가 되기를 기대한다. 모든 코드와 실험 설정은 연구 공동체의 지원을 위해 공개될 예정이다.