
要約
近年のネットワーク量子化に関する研究では、混合精度量子化を用いた手法が、最先端の性能を達成している。多くの効率的なエッジデバイス向けハードウェア実装においては、量子化器が均一であり、かつ2の累乗のしきい値を持つことが必須の要件である。本研究では、この要件を満たすため、ハードウェアに優しい混合精度量子化ブロック(Hardware Friendly Mixed Precision Quantization Block:HMQ)を提案する。HMQは、Gumbel-Softmax推定器を、ビット幅としきい値という2つの量子化パラメータの滑らかな推定器として再利用する混合精度量子化ブロックであり、有限の量子化スキームの空間を探索可能にする。実験的に、CIFAR10およびImageNet上で訓練された分類モデルにHMQを適用した。ImageNetに対しては、4種類の異なるアーキテクチャを量子化し、量子化スキームに追加された制約にもかかわらず、競争力のある結果を達成し、一部のケースでは最先端の性能を上回ることを示した。