生成低比特幅データフリーコンピュテーション

ニューラルネットワークの量子化は、深層モデルを圧縮し、その実行遅延とエネルギー効率を向上させる効果的な方法であり、モバイルや組み込みデバイスへの展開が可能となります。既存の量子化手法では、より良い性能を得るためには、元のデータを用いたキャリブレーションやファインチューニングが必要です。しかし、多くの実世界のシナリオにおいて、機密性やプライバシーの問題によりデータが利用できない場合があり、これにより既存の量子化手法が適用できないことがあります。さらに、元のデータがないため、最近開発された生成対抗ネットワーク(Generative Adversarial Networks: GANs)もデータ生成に使用できません。完全精度モデルには豊富なデータ情報が含まれているかもしれませんが、その情報だけでは元のデータを復元したり新しい意味のあるデータを生成したりするのが困難です。本論文では、単純ながら効果的な手法である「ジェネレーティブ・ローウェイト幅・データフリー量子化(Generative Low-bitwidth Data Free Quantization: GDFQ)」について調査を行いました。具体的には、事前学習済みモデル内の分類境界知識と分布情報を活用して意味のある偽データを生成する知識マッチングジェネレーターを提案します。生成されたデータのおかげで、事前学習済みモデルから知識を学びつつモデルの量子化を行うことが可能となります。3つのデータセットにおける広範な実験結果は、当手法の有効性を示しています。特に重要な点として、4ビット量子化において当手法は既存のデータフリー量子化手法よりも大幅に高い精度を達成しています。コードは以下のURLから入手可能です:https://github.com/xushoukai/GDFQ。