HyperAI超神经

Qwen3 量化实证研究

Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
发布日期: 5/13/2025
Qwen3 量化实证研究
摘要

Qwen系列已成为开源大语言模型(LLMs)中的领先家族,在自然语言理解任务中展现出卓越的能力。随着最近发布的Qwen3在多种基准测试中表现出优异性能,人们对其在资源受限环境下的高效部署越来越感兴趣。低比特量化提供了一种有前景的解决方案,但其对Qwen3性能的影响仍需进一步探索。本研究系统地评估了Qwen3在不同量化设置下的鲁棒性,旨在揭示压缩这一最先进模型的机会与挑战。我们严格评估了应用于Qwen3的5种现有经典训练后量化技术,涵盖了从1到8比特的位宽范围,并在多个数据集上评价了它们的有效性。研究结果表明,虽然Qwen3在中等位宽下仍能保持竞争力,但在超低精度条件下,其在语言任务中的表现显著下降,突显了大语言模型压缩所面临的持续障碍。这些结果强调了需要进一步研究以减轻极端量化场景下的性能损失。我们期望这一实证分析能够为推进适用于Qwen3及未来大语言模型的量化方法提供切实可行的见解,最终在不牺牲准确性的情况下增强其实用性。我们的项目已发布在https://github.com/Efficient-ML/Qwen3-Quantization 和 https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b。