9 天前

通过伪量化噪声实现的可微模型压缩

Alexandre Défossez, Yossi Adi, Gabriel Synnaeve

摘要

我们提出了一种名为 DiffQ 的可微分模型压缩方法，用于对模型参数进行量化，且无需依赖梯度近似技术（如直通估计器，Straight-Through Estimator, STE）。我们建议在训练过程中向模型参数添加独立的伪量化噪声，以近似量化操作的影响。DiffQ 在未量化权重和所用比特数两个方面均具备可微性。通过一个单一超参数（用于权衡量化后模型大小与精度），DiffQ 可在端到端训练过程中，自动优化每个权重或权重组所使用的比特数。实验结果表明，该方法在图像分类、语言建模和语音源分离等多个基准任务与架构上，性能可与基于 STE 的量化技术相媲美。例如，在 ImageNet 数据集上，DiffQ 可将一个 12 层的基于 Transformer 的模型压缩超过 8 倍（平均每个权重的精度低于 4 位），同时仅造成 0.3% 的模型精度损失。相关代码已开源，地址为 github.com/facebookresearch/diffq。