HyperAIHyperAI

Command Palette

Search for a command to run...

Q8BERT:量子化8ビットBERT

Ofir Zafrir Guy Boudoukh Peter Izsak Moshe Wasserblat

概要

近年、BERTやGPTなど、事前学習されたTransformerベースの言語モデルは、自然言語処理(NLP)の多くのタスクにおいて顕著な性能向上を示している。しかし、これらのモデルは膨大な数のパラメータを有しており、GPT-2やMegatronといったさらに大規模かつ高精度なモデルの登場は、大規模な事前学習済みTransformerモデルへの傾向を示唆している。一方で、こうした大規模モデルを本番環境で運用するには、膨大な計算資源、メモリ、電力消費を要する複雑な課題が伴う。本研究では、BERTのファインチューニング段階において、量子化に配慮した学習(quantization-aware training)を実施することで、BERTモデルを約4倍に圧縮しつつ、精度の低下を最小限に抑える手法を提示する。さらに、8ビット整数をサポートするハードウェア向けに最適化された場合、生成された量子化モデルは推論速度の大幅な向上を実現できる。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています