2ヶ月前

ZeroQ: 新たなゼロショット量子化フレームワーク

Cai, Yaohui ; Yao, Zhewei ; Dong, Zhen ; Gholami, Amir ; Mahoney, Michael W. ; Keutzer, Kurt
ZeroQ: 新たなゼロショット量子化フレームワーク
要約

量子化は、ニューラルネットワークの推論時間とメモリ使用量を削減する有望な手法です。しかし、既存の多くの量子化方法では、量子化時に再学習のために元の訓練データセットへのアクセスが必要です。これは、プライバシーやセキュリティの懸念から機密性や独自性のあるデータを持つアプリケーションではしばしば不可能です。既存のゼロショット量子化手法は、異なるヒューリスティックを使用してこの問題に対処していますが、特に超低精度に量子化する場合、性能が著しく低下します。本稿では、新たなゼロショット量子化フレームワークであるZeroQを提案します。ZeroQは、訓練データや検証データへのアクセスなしで混合精度量子化を可能にします。これは、ネットワーク内の異なる層でのバッチ正規化の統計特性と一致するように設計されたDistilled Dataset(蒸留データセット)に対して最適化することで達成されます。ZeroQは一様量子化と混合精度量子化の両方をサポートしており、後者については新たにParetoフロンティアに基づく手法を導入し、各層の混合精度ビット設定を自動的に決定します。手動での探索は不要です。我々は提案手法を多様なモデルで広範囲にテストしました。具体的には、ImageNet上のResNet18/50/152、MobileNetV2、ShuffleNet、SqueezeNextおよびInceptionV3だけでなく、Microsoft COCOデータセット上のRetinaNet-ResNet50でもテストを行いました。特にMobileNetV2においては、最近提案されたDFQ手法と比較して1.71%高い精度を達成できることを示しています。重要な点として、ZeroQは非常に低い計算オーバーヘッドを持ち、ImageNet上のResNet50の一エポック訓練時間(約30秒)の0.5%未満で全量子化プロセスを完了できます。また、ZeroQフレームワークはオープンソースとして公開されています\footnote{https://github.com/amirgholami/ZeroQ}。

ZeroQ: 新たなゼロショット量子化フレームワーク | 最新論文 | HyperAI超神経