11 天前

LSQ+：通过可学习偏移量和更优初始化提升低比特量化

Yash Bhalgat, Jinwon Lee, Markus Nagel, Tijmen Blankevoort, Nojun Kwak

摘要

与ReLU不同，近年来在主流高效神经网络架构中广泛采用的新型激活函数（如Swish、H-swish、Mish）往往会产生负值激活，且其正负值分布呈现明显偏斜。典型的可学习量化方案（如PACT、LSQ）通常假设激活值为无符号量，将所有负激活值量化为零，这会导致性能显著下降。而简单地采用有符号量化以容纳负值，则需引入额外的符号位，这对低比特（2、3、4比特）量化而言成本过高。为解决这一问题，我们提出LSQ+，作为LSQ的自然扩展，引入了一种通用的非对称量化方案，其量化参数包括可训练的缩放因子与偏移量，能够自适应地学习并有效处理负激活值。此外，基于梯度的可学习量化方法普遍面临训练性能高度不稳定或方差较大的问题，因而往往需要大量超参数调优才能达到理想性能。LSQ+通过采用基于均方误差（MSE）的量化参数初始化策略，有效缓解了该问题，显著降低了多次训练运行之间最终性能的方差。实验结果表明，LSQ+在EfficientNet和MixNet等模型上均取得了当前最优的量化性能；尤其在采用Swish激活函数的神经网络低比特量化中，显著优于传统LSQ方法——例如在ImageNet数据集上，EfficientNet-B0模型采用W4A4量化时性能提升1.8%，而W2A2量化时提升高达5.6%。据我们所知，本工作是首个成功将此类架构实现到极低比特宽度（如2比特）下的量化研究。