风向量嵌入协作CPU-NPU,动态长度浮点实现无损大模型压缩效率提升
主体总结 随着大语言模型(LLMs)在工业界的广泛应用,推理服务中的硬件资源利用成为优化成本的关键。一方面,向量嵌入和检索在推理过程中占用较高比例的计算资源,导致高昂的成本压力;另一方面,模型体积巨大,给资源受限硬件带来了巨大挑战。为了应对这些问题,两个研究团队分别提出了有效解决方案。 首个研究团队分析了向量嵌入技术的部署成本,发现提升并发查询处理能力可以显著降低成本。为此,他们设计了一个名为“WindVE”的系统,采用了CPU-NPU(神经处理单元)异构架构,并引入了一个高效的队列管理器。该管理器利用线性回归模型来优化队列深度,有效应对流量激增情况。实验结果显示,WindVE的并发处理能力相比不卸载方案提高了22.3%,在低延迟条件下显著降低了部署成本。这项技术在成本控制严格的工业环境中具有重要应用价值,有助于推动大语言模型的实际落地。 另一团队则针对LLM体积庞大导致的高效部署难题,开发了一种名为“Dynamic-Length Float”(简称DFloat11)的无损压缩框架。DFloat11基于BFloat16权重的低熵特性,利用熵编码技术为权重分配动态长度的编码,实现接近信息理论最优的压缩效果。此外,研究团队还设计了专门的GPU内核,用于快速在线解压,确保模型精度不受影响。DFloat11的主要技术实现包括对内存密集型查找表进行分解、设计两阶段内核以及采用Transformer块级别解压缩策略。实验结果显示,DFloat11在处理最新大模型时,不仅减少了约30%的模型体积,还在固定硬件预算下提高了生成令牌的吞吐量,使得在一个80GB显存的GPU节点上可以无损推理高达810GB的超大型模型Llama-3.1-405B。这一成果对未来的大模型开发和实际应用具有深远影响。 两个研究小组的不同技术路径,一个侧重于并发处理能力的优化,另一个则关注模型体积的压缩,均在各自的领域取得了显著突破。WindVE和DFloat11的研究成果不仅提高了大语言模型的性能和成本效益,也为未来的高性能计算和大模型应用提供了有力支持。 背景补充 专家们普遍认为,WindVE和DFloat11的提出,解决了大语言模型在工业应用中的两大瓶颈问题。WindVE通过优化并发查询处理能力,大幅降低了向量嵌入的部署成本,提升了系统的整体效率。DFloat11则在不牺牲精度的前提下,显著减小了模型体积,提高了资源受限设备上的推理效率。研究团队来自智源社区和多个顶级研究机构及高校,在机器学习和高性能计算领域具有深厚的技术积累和丰富经验。这两项技术的结合应用,将进一步推动大语言模型的普及和创新,特别是在资源有限的场景下。