
模型量化与压缩是广泛应用于推理阶段以降低计算资源消耗的技术。尽管当前最先进的方法在较高比特位(如4位或8位)下已实现较为理想的精度,但进一步将模型量化或压缩至更低比特位(例如1位或2位)仍面临显著挑战。为应对这一难题,本文聚焦于预训练模型权重中的异常值(outliers),这些异常值会破坏低比特量化与压缩的有效性。为此,本文提出一种名为范围限制损失(Range Restriction Loss, R2-Loss)的新方法,通过在预训练阶段消除权重中的异常值,构建更适用于低比特量化与压缩的模型。通过有效限制权重的取值范围,R2-Loss能够使权重整体分布趋于紧凑,从而提升量化过程中的比特分辨率,使量化与压缩技术能够更充分地利用其有限的数值表示能力。本文设计了三种不同形式的R2-Loss:L∞范数R2-Loss、其扩展形式——Margin R2-Loss,以及一种新型的Soft-Min-Max R2-Loss,均可作为辅助损失函数,在全精度模型训练过程中使用。其中,L∞范数与Margin R2-Loss在对称量化场景中表现优异;而Soft-Min-Max R2-Loss则在模型压缩任务中展现出更优性能。实验结果表明,R2-Loss显著提升了低比特量化与压缩的精度,适用于当前最先进的后训练量化(Post-Training Quantization, PTQ)、量化感知训练(Quantization-Aware Training, QAT)以及模型压缩技术。具体而言,在应用R2-Loss后,MobileNet-V2实现2位权重与8位激活的PTQ精度由50.66%提升至59.49%;MobileNet-V1实现2位权重与激活的QAT精度由55.96%提升至59.05%;ResNet18实现1位权重压缩的精度由45.54%提升至52.58%。上述结果充分验证了R2-Loss在推动低比特模型高效量化与压缩方面的有效性与普适性。