
摘要
近期在神经网络量化领域的研究通过采用混合精度量化方法,取得了当前最优的性能表现。然而,许多高效边缘设备硬件实现的一个关键要求是其量化器必须采用均匀量化且阈值为2的幂次。为此,本文提出了一种面向硬件友好的混合精度量化模块(Hardware-Friendly Mixed Precision Quantization Block, HMQ),以满足这一需求。HMQ是一种混合精度量化模块,其创新性地将Gumbel-Softmax估计器重构为对一对量化参数——即比特宽度(bit-width)与阈值(threshold)——的平滑估计器。基于此机制,HMQ能够在有限的量化方案空间中进行高效搜索。实验上,我们将HMQ应用于在CIFAR10和ImageNet数据集上训练的分类模型进行量化。在ImageNet数据集上,我们对四种不同的网络架构进行了量化实验,结果表明,尽管量化方案受到额外约束,HMQ仍能取得具有竞争力的性能,甚至在某些情况下达到当前最优水平。