17일 전

Q-BERT: BERT의 헤시안 기반 초저정밀도 양자화

Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer
Q-BERT: BERT의 헤시안 기반 초저정밀도 양자화
초록

기반 Transformer 아키텍처는 자연어 처리(NLP) 작업에 사용되는 사실상의 표준 모델로 자리 잡았다. 특히 BERT 기반 모델은 GLUE 작업, CoNLL-03 및 SQuAD에서 뛰어난 정확도 향상을 달성하였다. 그러나 BERT 기반 모델은 메모리 사용량과 지연(latency)이 매우 크다는 단점이 있으며, 이로 인해 자원 제약 환경에서의 배포가 큰 도전 과제가 되고 있다. 본 연구에서는 2차 헤시안(Hessian) 정보를 활용하여 미세조정된 BERT 모델을 철저히 분석하고, 이를 바탕으로 초저정밀도로의 BERT 모델 양자화를 위한 새로운 방법을 제안한다. 구체적으로, 새로운 그룹별 양자화 방식을 제안하며, 헤시안 기반의 혼합 정밀도 기법을 활용하여 모델을 추가로 압축한다. 제안한 방법은 BERT의 하류 작업인 SST-2, MNLI, CoNLL-03 및 SQuAD에서 광범위하게 평가되었으며, 기준 모델과 비교해 최대 2.3%의 성능 저하만을 보이며 경쟁 가능한 성능을 달성할 수 있었다. 특히 2비트까지 초저정밀도 양자화를 적용하더라도 이러한 성능 유지가 가능했으며, 이는 모델 파라미터의 최대 13배, 임베딩 테이블 및 활성화 값의 최대 4배까지의 압축을 의미한다. 모든 작업 중에서 SQuAD에 대해 미세조정된 BERT 모델에서 가장 큰 성능 저하가 관측되었다. 헤시안 기반 분석과 시각화를 통해 이 현상이 현재 BERT의 학습/미세조정 전략이 SQuAD에서 수렴하지 않는다는 사실과 관련이 있음을 밝혔다.