
초록
우리는 기울기 근사(예: 직선 통과 추정기, Straight Through Estimator) 없이 모델 파라미터를 양자화하는 모델 압축을 위한 미분 가능한 방법인 DiffQ를 제안한다. 학습 중에 모델 파라미터에 독립적인 가상 양자화 노이즈를 추가함으로써 양자화 연산자의 효과를 근사한다. DiffQ는 미양자화된 가중치뿐만 아니라 사용된 비트 수에 대해서도 미분 가능하다. 단일 하이퍼파라미터(양자화된 모델 크기와 정확도 사이의 균형을 조절)를 기반으로, DiffQ는 엔드투엔드 학습에서 개별 가중치 또는 가중치 그룹별로 사용되는 비트 수를 최적화한다. 여러 벤치마크와 아키텍처(이미지 분류, 언어 모델링, 오디오 소스 분리)에 대한 실험을 통해, 제안한 방법이 STE 기반 양자화 기법과 경쟁 가능한 성능을 보임을 검증하였다. 예를 들어, ImageNet 데이터셋에서 DiffQ는 12층의 트랜스포머 기반 모델을 평균 가중치당 4비트 미만의 정밀도로 8배 이상 압축하면서 모델 정확도 손실이 0.3%에 불과함을 확인하였다. 코드는 github.com/facebookresearch/diffq 에서 공개되어 있다.