9日前

疑似量子化ノイズを用いた微分可能なモデル圧縮

Alexandre Défossez, Yossi Adi, Gabriel Synnaeve
疑似量子化ノイズを用いた微分可能なモデル圧縮
要約

我々は、勾配の近似(例えば、Straight Through Estimator: STE)を用いない、モデルパラメータの量子化を実現する微分可能な手法であるDiffQを提案する。訓練中にモデルパラメータに独立した擬似量子化ノイズを追加することで、量子化演算子の効果を近似する手法を提案する。DiffQは、非量子化された重みおよび使用されるビット数の両方に関して微分可能であり、1つのハイパーパラメータ(量子化モデルのサイズと精度のバランスを調整)を用いて、エンドツーエンドの訓練において個々の重みまたは重みのグループごとに最適なビット数を自動的に最適化する。実験により、画像分類、言語モデリング、音声ソース分離の複数のベンチマークおよびアーキテクチャにおいて、従来のSTEに基づく量子化手法と同等以上の性能を達成することを確認した。例えば、ImageNetデータセットにおいて、12層のTransformerベースのモデルを平均1重量あたり4ビット未満の精度で8倍以上に圧縮しつつ、モデル精度の低下は0.3%にとどまった。コードはgithub.com/facebookresearch/diffqにて公開されている。