생성형 저비트폭 데이터 프리 양자화

신경망 양자화는 딥 모델을 압축하고 실행 지연 시간 및 에너지 효율성을 향상시키는 효과적인 방법으로, 이를 통해 모바일 또는 임베디드 장치에 모델을 배포할 수 있습니다. 기존의 양자화 방법은 보정 또는 미세 조정(fine-tuning)을 위해 원본 데이터가 필요하여 성능을 개선할 수 있습니다. 그러나 많은 실제 시나리오에서 원본 데이터는 보안이나 개인 정보 문제로 인해 사용할 수 없어, 기존의 양자화 방법이 적용될 수 없는 경우가 많습니다. 또한, 원본 데이터가 부족한 상태에서는 최근 개발된 생성적 적대 네트워크(generative adversarial networks, GANs)를 활용하여 데이터를 생성하는 것이 불가능합니다. 전체 정밀도(full-precision) 모델은 풍부한 데이터 정보를 포함하고 있지만, 이러한 정보만으로 원본 데이터를 복원하거나 새로운 의미 있는 데이터를 생성하기는 어렵습니다. 본 논문에서는 간단하면서도 효과적인 방법인 생성적 저비트폭 데이터 독립 양자화(Generative Low-bitwidth Data Free Quantization, GDFQ)를 연구하여 데이터 의존성을 제거하는 방안을 제시합니다. 구체적으로, 분류 경계(classification boundary) 지식과 사전 학습(pre-trained) 모델 내의 분포 정보(distribution information)를 활용하여 의미 있는 가짜 데이터(fake data)를 생성하는 지식 매칭 생성기(knowledge matching generator)를 제안합니다. 생성된 데이터의 도움으로, 우리는 사전 학습 모델로부터 지식을 학습하여 모델을 양자화할 수 있습니다. 세 가지 데이터셋에 대한 광범위한 실험 결과는 우리의 방법이 효과적임을 입증하였습니다. 더욱 중요한 점은, 4비트 양자화에서 우리의 방법이 기존의 데이터 독립 양자화 방법보다 훨씬 높은 정확도를 달성하였다는 것입니다. 코드는 https://github.com/xushoukai/GDFQ에서 확인 가능합니다.