11일 전

FQ-ViT: 완전 양자화 비전 트랜스포머를 위한 훈련 후 양자화

Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou
FQ-ViT: 완전 양자화 비전 트랜스포머를 위한 훈련 후 양자화
초록

네트워크 양자화는 모델 추론 복잡도를 크게 감소시키며 실세계 적용에 널리 사용되고 있다. 그러나 기존의 대부분의 양자화 기법은 주로 컨볼루션 신경망(Convolutional Neural Networks, CNNs) 기반으로 개발되었으며, 완전 양자화된 비전 트랜스포머(Vision Transformers)에 적용할 경우 심각한 성능 저하를 겪는다. 본 연구에서는 이러한 어려움의 대부분이 레이어 정규화(LayerNorm) 입력에서 심각한 채널 간 변동성(channel-wise variation)에 기인함을 밝히고, 완전 양자화된 비전 트랜스포머의 성능 저하와 추론 복잡도를 줄이기 위한 체계적인 방법인 2의 거듭제곱 인자(Power-of-Two Factor, PTF)를 제안한다. 또한, 주목할 만큼 비균일한 분포를 보이는 어텐션 맵을 관찰한 결과, 4비트 양자화와 비트시프트(BitShift) 연산을 활용하여 어텐션 맵의 특성을 유지하면서 추론을 단순화하는 Log-Int-Softmax(LIS)를 제안한다. 다양한 트랜스포머 기반 아키텍처와 벤치마크에서 수행한 종합적인 실험 결과, 본 연구에서 제안하는 완전 양자화 비전 트랜스포머(Fully Quantized Vision Transformer, FQ-ViT)는 어텐션 맵의 비트 폭을 더 낮게 사용함에도 불구하고 기존 기법들을 능가하는 성능을 달성하였다. 예를 들어, ImageNet에서 ViT-L을 사용해 84.89%의 top-1 정확도를 달성하였으며, COCO에서 Cascade Mask R-CNN(Swin-S)을 활용해 50.8 mAP를 기록하였다. 본 연구를 통해 완전 양자화된 비전 트랜스포머에서 손실 없는 정확도 저하(~1%)를 달성한 최초의 사례로 알려졌다. 코드는 https://github.com/megvii-research/FQ-ViT 에서 공개되어 있다.

FQ-ViT: 완전 양자화 비전 트랜스포머를 위한 훈련 후 양자화 | 최신 연구 논문 | HyperAI초신경