11日前

Q8BERT:量子化8ビットBERT

Ofir Zafrir, Guy Boudoukh, Peter Izsak, Moshe Wasserblat
Q8BERT:量子化8ビットBERT
要約

近年、BERTやGPTなど、事前学習されたTransformerベースの言語モデルは、自然言語処理(NLP)の多くのタスクにおいて顕著な性能向上を示している。しかし、これらのモデルは膨大な数のパラメータを有しており、GPT-2やMegatronといったさらに大規模かつ高精度なモデルの登場は、大規模な事前学習済みTransformerモデルへの傾向を示唆している。一方で、こうした大規模モデルを本番環境で運用するには、膨大な計算資源、メモリ、電力消費を要する複雑な課題が伴う。本研究では、BERTのファインチューニング段階において、量子化に配慮した学習(quantization-aware training)を実施することで、BERTモデルを約4倍に圧縮しつつ、精度の低下を最小限に抑える手法を提示する。さらに、8ビット整数をサポートするハードウェア向けに最適化された場合、生成された量子化モデルは推論速度の大幅な向上を実現できる。

Q8BERT:量子化8ビットBERT | 最新論文 | HyperAI超神経