HyperAI

主体总结随着大语言模型（LLMs）在工业界的广泛应用，推理服务中的硬件资源利用成为优化成本的关键。一方面，向量嵌入和检索在推理过程中占用较高比例的计算资源，导致高昂的成本压力；另一方面，模型体积巨大，给资源受限硬件带来了巨大挑战。为了应对这些问题，两个研究团队分别提出了有效解决方案。首个研究团队分析了向量嵌入技术的部署成本，发现提升并发查询处理能力可以显著降低成本。为此，他们设计了一个名为“WindVE”的系统，采用了CPU-NPU（神经处理单元）异构架构，并引入了一个高效的队列管理器。该管理器利用线性回归模型来优化队列深度，有效应对流量激增情况。实验结果显示，WindVE的并发处理能力相比不卸载方案提高了22.3%，在低延迟条件下显著降低了部署成本。这项技术在成本控制严格的工业环境中具有重要应用价值，有助于推动大语言模型的实际落地。另一团队则针对LLM体积庞大导致的高效部署难题，开发了一种名为“Dynamic-Length Float”（简称DFloat11）的无损压缩框架。DFloat11基于BFloat16权重的低熵特性，利用熵编码技术为权重分配动态长度的编码，实现接近信息理论最优的压缩效果。此外，研究团队还设计了专门的GPU内核，用于快速在线解压，确保模型精度不受影响。DFloat11的主要技术实现包括对内存密集型查找表进行分解、设计两阶段内核以及采用Transformer块级别解压缩策略。实验结果显示，DFloat11在处理最新大模型时，不仅减少了约30%的模型体积，还在固定硬件预算下提高了生成令牌的吞吐量，使得在一个80GB显存的GPU节点上可以无损推理高达810GB的超大型模型Llama-3.1-405B。这一成果对未来的大模型开发和实际应用具有深远影响。两个研究小组的不同技术路径，一个侧重于并发处理能力的优化，另一个则关注模型体积的压缩，均在各自的领域取得了显著突破。WindVE和DFloat11的研究成果不仅提高了大语言模型的性能和成本效益，也为未来的高性能计算和大模型应用提供了有力支持。背景补充专家们普遍认为，WindVE和DFloat11的提出，解决了大语言模型在工业应用中的两大瓶颈问题。WindVE通过优化并发查询处理能力，大幅降低了向量嵌入的部署成本，提升了系统的整体效率。DFloat11则在不牺牲精度的前提下，显著减小了模型体积，提高了资源受限设备上的推理效率。研究团队来自智源社区和多个顶级研究机构及高校，在机器学习和高性能计算领域具有深厚的技术积累和丰富经验。这两项技术的结合应用，将进一步推动大语言模型的普及和创新，特别是在资源有限的场景下。

风向量嵌入协作CPU-NPU，动态长度浮点实现无损大模型压缩效率提升

Related Links