9 天前

通过伪量化噪声实现的可微模型压缩

Alexandre Défossez, Yossi Adi, Gabriel Synnaeve
通过伪量化噪声实现的可微模型压缩
摘要

我们提出了一种名为 DiffQ 的可微分模型压缩方法,用于对模型参数进行量化,且无需依赖梯度近似技术(如直通估计器,Straight-Through Estimator, STE)。我们建议在训练过程中向模型参数添加独立的伪量化噪声,以近似量化操作的影响。DiffQ 在未量化权重和所用比特数两个方面均具备可微性。通过一个单一超参数(用于权衡量化后模型大小与精度),DiffQ 可在端到端训练过程中,自动优化每个权重或权重组所使用的比特数。实验结果表明,该方法在图像分类、语言建模和语音源分离等多个基准任务与架构上,性能可与基于 STE 的量化技术相媲美。例如,在 ImageNet 数据集上,DiffQ 可将一个 12 层的基于 Transformer 的模型压缩超过 8 倍(平均每个权重的精度低于 4 位),同时仅造成 0.3% 的模型精度损失。相关代码已开源,地址为 github.com/facebookresearch/diffq。